Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters par

Transcription

1 Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes Jean-Charles Lamirel, Zied Boulila, Maha Ghribi, Pascal Cuxac, Claire François To cite this version: Jean-Charles Lamirel, Zied Boulila, Maha Ghribi, Pascal Cuxac, Claire François. Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes. Sixième colloque : Veille Stratégique Scientifique et Technologique - VSST 2010, Oct 2010, Toulouse, France..00, <hal > HAL Id: hal htts://hal.archives-ouvertes.fr/hal Submitted on 9 Aug 2011 HAL is a multi-discilinary oen access archive for the deosit and dissemination of scientific research documents, whether they are ublished or not. The documents may come from teaching and research institutions in France or abroad, or from ublic or rivate research centers. L archive ouverte luridiscilinaire HAL, est destinée au déôt et à la diffusion de documents scientifiques de niveau recherche, ubliés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires ublics ou rivés.

2

3 Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l étiquetage des clusters ar maximisation de vraisemblance : alication au clustering des gros corus de données textuelles hétérogènes Jean-Charles Lamirel(*), Zied Boulila (*), Maha Ghribi (**), Pascal Cuxac (**), Claire François (**) jean-charles.lamirel@loria.fr, maha.ghribie@inist.fr, ascal.cuxac@inist.fr, claire.francois@inist.fr (*) INRIA team TALARIS-LORIA, Vandoeuvre les Nancy, France (**) INIST-CNRS, Vandoeuvre les Nancy, France Mots clefs : Veille scientifique et technologique, clustering, classification incrémentale, gaz neuronal, données textuelles, qualité Keywords: Scientific and technical observation, clustering, incremental classification, neural gas, textual data, quality Palabras clave : Escudriñar científico y tecnológico, clustering, clasificación incremental, gas neuronal, datos textuales, calidad Résumé Dans le cadre de la veille ou de l analyse rosective, il est très courant d avoir recours aux méthodes de clustering our traiter de gros volumes de données textuelles. Les algorithmes de clustering affichent généralement de bonnes erformances dans le cas où les corus à traiter sont de nature homogène. Cela vaut articulièrement our les algorithmes de clustering neuronaux, et encore lus sécifiquement our les récentes versions adatatives de ces algorithmes, comme l'algorithme incrémental de gaz neuronal croissant (IGNG). Ceendant, ce aier illustre clairement la chute drastique de erformance de la luart de ces algorithmes dans le cas lus réaliste où les corus à traiter s avèrent être de nature hétérogène, ou olythématique. Dans ce contexte, des mesures sécifiques de qualité de clustering et de nouvelles techniques d étiquetage des clusters qui sont indéendantes de la méthode de clustering utilisée sont exloitées our l'évaluation des erformances des méthodes. Un nouvel algorithme de gaz neuronal croissant exloitant une mesure de similarité basée sur la maximisation de la qualité de l'étiquetage des clusters est ensuite résenté comme une alternative à l algorithme IGNG original basé sur la distance euclidienne. Nous montrons que cette solution ermet d obtenir un accroissement très significatif de erformance our le clustering des données textuelles olythématiques. Celle-ci fournit également ar ailleurs un véritable caractère incrémental à l'algorithme roosé. 1 Introduction Les méthodes neuronales de clustering artagent le rincie de rendre en considération des relations de voisinage entre les clusters, qu'elles soient rédéfinies (toologie fixe), comme dans le cas des «cartes auto-organisatrices» (SOM) [14], ou dynamiques (toologie libre), comme dans celui des «gaz neuronaux» qu ils soient statiques (NG) [23], ou croissants (GNG) [6]. Comarativement aux méthodes de clustering usuelles, comme

4 K-MEANS [25], cette stratégie les rend moins sensibles aux conditions initiales, ce qui rerésente un avantage déterminant dans le cadre de l'analyse des données textuelles, qui sont souvent rerésentées comme des données éarses associées à des esaces de descrition fortement multidimensionnels. Les avantages et les inconvénients théoriques des différents algorithmes de clustering existants sont une chose, mais qu en est-il dans la réalité? Une comaraison lus claire du comortement de ces algorithmes utilisant une base commune, et lus articulièrement une estimation fiable de la qualité de leurs résultats sur des données comlexes comme les données textuelles hétérogènes ou olythématiques s avérait nécessaire our aorter lus de lumière sur leur avantage et sur leurs inconvénients effectifs. Elle s avérait également indisensable our décider de l exloitation ultérieure de certains d entre eux dans le cadre de la classification incrémentale. Nous avons donc mené une exérimentation exhaustive de ces algorithmes sur deux tyes de données différents, à savoir des données homogènes et des données olythématiques, le contexte de ces dernières étant celui qui se raroche le lus, dans le cadre statique, des contraintes intrinsèques de la classification incrémentale. Nous avons our cela exloité nos rores mesures génériques d évaluation de la qualité du clustering qui sont indéendantes de la méthode de clustering et que nous résentons ar la suite. Nous exosons également ci-arès une comaraison du comortement des méthodes de clustering neuronales que nous avons résentées sur des données homogènes et hétérogènes en utilisant une méthode de clustering non neuronale, en l occurrence la méthode Walktra, comme méthode de référence. Nous résentons finalement les améliorations que nous avons déveloées à la fois our obtenir des résultats satisfaisants sur des données comlexes, comme les données olythématiques, et arallèlement, our obtenir des méthodes offrant un comortement réellement incrémental. 2 Les méthodes de classification dérivées de SOM L aroche SOM est basée sur l observation biologique que le cortex ossède la caacité articulière de réduire la rerésentation de grands ensembles de données sous la forme de cartes auto-organisées. Comme le montre Kohonen [14], une cartograhie d'un esace de données multidimensionnel sur une grille bidimensionnelle de neurones qui regroueront arès arentissage les roriétés synthétiques des données considérées eut ainsi être définie. L'algorithme d arentissage de SOM est résenté en détails dans [14]. Il se comose de deux rocédures de base aliquées à chaque nouvelle donnée d entrée : (1) choix d un neurone gagnant our la donnée sur la grille, et, (2) mise à jour des oids, ou comosantes, associés au vecteur de référence du neurone gagnant et de ceux de ses neurones voisins en fonction de cette donnée. Chaque neurone ouvant être assimilé à un cluster, l algorithme SOM eut donc être considéré comme un algorithme de clustering du tye «le gagnant emorte le lus» 1. Une fois l arentissage achevé, les données d arentissage euvent être affectées individuellement aux neurones, ou clusters, de la grille. Les cartes SOM ont été emloyées avec succès our de nombreuses alications du domaine général de l'analyse de données textuelles, comme our le clustering de comtes-rendus de réunion ou celui de données socio-économiques [29], ou encore our la cartograhie et le feuilletage des fonds documentaires [16]. Kaski et al. ont notamment mis au oint une adatation sécifique de SOM, aelée WEBSOM, our l'analyse des grands fonds de documents, en exloitant des techniques de rojection aléatoires visant à réduire la dimension descritive des documents [12]. La méthode MultiSOM a introduit de son coté la communication entre lusieurs cartes SOM associées à des oints de vue différents définis sur les 1 Contrairement à K-MEANS, qui eut être considéré comme un algorithme de tye «le gagnant remorte le tout», du fait que chaque donnée d entrée n influence qu un seul cluster à la fois au cours de l arentissage.

5 mêmes données [17], ce qui revient à ermettre de croiser de manière non suervisée des analyses basées sur des critères multiles. Cette dernière aroche a été aliquée avec succès à l'analyse des notices de brevets [18], ainsi qu à celle des données Web ([7],[20]). Finalement, des versions incrémentales de SOM intégrant des rocessus de croissance hiérarchique de la grille ermettent de suivre l évolution des caractéristiques des données [24]. L'avantage général de l aroche SOM est qu'elle combine de manière homogène dans un même modèle un rocessus de clustering avec un rocessus comlémentaire de rojection des résultats. Ceendant, le fait que les cartes SOM rerésentent des structures discontinues rend l aroche sécialement sensible aux données marginales [15]. Le défaut rincial de cette méthode reste malgré tout celui de ne as ermettre rerésenter très fidèlement les distributions de données comlexes en raison de la structure toologique fixe de la grille. Au contraire, l'algorithme «Neural Gas» (NG) [23], utilise un rocessus dynamique d estimation du voisinage des neurones vis-à-vis de chaque donnée d entrée. Les changements de oids ne sont as déterminés ar les distances relatives entre les neurones dans un treillis tyologiquement ré-structuré, mais ar la distance relative entre ceux-ci dans l'esace d'entrée, d où la désignation de «gaz neuronal» attribuée à ce tye de réseau. De fait, grâce à la relaxation des contraintes toograhiques ar raort à SOM, NG tend à mieux rerésenter la structure des distributions de données comlexes, menant théoriquement à de meilleurs résultats de classification. Néanmoins, un des inconvénients rinciaux de cet algorithme est que le nombre de neurones, matérialisant le nombre final de clusters, rerésente un aramètre fixe. L'algorithme «Growing Neural Gas» (GNG) [6] résout le caractère statique de l'algorithme NG en mettant en avant le concet du réseau évolutif. En effet, dans cette aroche, le nombre de neurones est adaté endant la hase d arentissage en fonction des caractéristiques de la distribution de données analysée. GNG donne ainsi la ossibilité de créer et de surimer des neurones, ainsi que des connexions structurelles de voisinage entre ces derniers 2. Le rocessus de suression se fonde sur la notion d âge limite, d'une connexion. Au tems t, si une connexion atteint cet âge limite, sans avoir été renouvelée, ou rafraichie, elle est automatiquement surimée; les neurones isolés sont ensuite surimés en conséquence. D'autre art, la création des neurones est oérée seulement ériodiquement (à chaque T itérations ou méta-ériode de tems) entre les deux neurones voisins qui ont cumulés l'erreur la lus imortante our rerésenter les données. Différents critères d arrêt euvent être emloyés, comme un nombre maximal de neurones ou un changement minimal entre les vecteurs de référence des neurones entre deux ériodes de tems. Ceendant, ces critères euvent dans certains cas ne as être atteints, articulièrement avec des données multidimensionnelles comlexes ou éarses. Ceci rerésente un inconvénient imortant de la méthode GNG. L'algorithme «Incremental Growing Neural Gas» (IGNG) [26] rerésente une adatation de l'algorithme GNG qui relaxe la contrainte d'évolution ériodique du réseau. Par conséquent, dans cet algorithme, un nouveau neurone est créé chaque fois que la distance de la donnée d'entrée courante aux neurones existants est suérieure à un seuil réfixé. La valeur est un aramètre global qui corresond à la distance moyenne des données d entrée vis-à-vis du centre de leur distribution. Par ailleurs, chaque nouveau neurone asse ar une hase embryonnaire durant laquelle il ne eut as être surimé, même s il a erdu toutes ses connexions de voisinage. La hase embryonnaire est un aramètre fixe qui corresond à un nombre donné d'étaes de tems arès lesquelles un neurone devient mature. Prudent et Ennaji arguent du fait que cette hase ermet de réduire l'imact des données bruitées durant l arentissage. A l issue de la hase d arentissage, les données sont rojetées uniquement sur les neurones matures. Prudent et Ennaji ont montré que la méthode IGNG roduisait de meilleurs résultats que les méthodes neuronales concurrentes sur les 2 Ces connexions, dites «hebbiennes» [10] ou cométitives, sont crées au cours de l arentissage entre le neurone gagnant et son concurrent direct. Elles ermettent de structurer dynamiquement le réseau créé, et euvent être exloitées dans tous les algorithmes neuronaux à toologie libre.

6 distributions-test usuelles. Ceendant, le fait que le aramètre doive être calculé avant l arentissage et déende globalement de l'ensemble des données d entrée ne laide as en faveur du caractère incrémental de la méthode, même si celui-ci a été défendu ar ses auteurs. L'objectif rincial de l algorithme «Imroved Incremental Growing Neural Gas» (I 2 GNG) [9] est de résoudre la faiblesse de l'algorithme IGNG en termes de comortement incrémental. Dans ce but, l'algorithme I 2 GNG exloite une valeur variable du seuil qui est calculée à chaque étae de l arentissage et qui déend de chaque neurone (c.-à-d. de chaque cluster). Les données sont dynamiquement associées aux neurones durant l arentissage. Par conséquent, au tems t, le seuil de chaque neurone corresond à la distance moyenne de son vecteur de référence à ses données actuellement associées. L'algorithme I 2 GNG a été testé avec succès our la classification non suervisée de documents de facturation. Ceendant, l'inconvénient rincial de celui-ci semble être lié à son initialisation. En effet, une valeur de seuil ar défaut doit être sécifiée à la création de chaque nouveau neurone, et aucune solution récise n'a été roosée jusqu'ici ar les auteurs our traiter correctement ce roblème. 3. Evaluation des résultats de clustering basée sur les notions de récision et de rael En classification non suervisée (clustering), le fait de ne as avoir de classification de référence sur laquelle s auyer rerésente un lourd handica our évaluer la erformance des algorithmes. Il existe certes des indices de qualité basés sur des calculs de distance dont les lus connus sont les inerties intra-classe et inter-classes [22] : - L inertie intra-classe ermet de mesurer le degré d homogénéité entre les données associées à une classe. Elle calcule leurs distances ar raort au oint rerésentant le rofil de la classe. - L inertie inter-classes mesure le degré d hétérogénéité entre les classes. Elle calcule les distances entre les oints rerésentant les rofils des différentes classes de la artition. Parmi les autres indices de qualité utilisant la distance entre individus, ou données, qui ont été déveloés, l on citera l indice de Dunn [5], l indice de validation de Davies-Bouldin [2] et la Silhouette [28]. Tous ces indices, ne ermettent ceendant as d estimer la qualité du clustering dans bon nombre de cas, comme dans celui des données textuelles [8], [13]. Dès 2004, nous avons déveloé une aroche alternative basée sur des mesures de Rael, Précision et F-mesure non suervisée exloitant les descriteurs des données associées aux classes [19], que nous avons affinée deuis. Dans le domaine de la recherche d information, le Rael R rerésente le raort entre le nombre de documents ertinents restitués our une requête donnée et le nombre total de documents ertinents qui auraient été trouvés dans la base de données documentaire. La Précision P rerésente le raort entre le nombre de documents ertinents qui ont été restitués our une requête donnée et le nombre total de documents retournés our ladite requête. Le Rael et la Précision se comortent en général de manière antagoniste : quand le Rael augmente, la Précision baisse, et inversement. La fonction F a ainsi été mise en lace our identifier le meilleur comromis entre le Rael et la Précision. Elle est rerésentée ar la moyenne harmonique : 2( R P) F = (Eq. 1) R + P Le rincie des mesures de Rael et de Précision adaté au cas de la classification non suervisée est illustré à la figure 1.

7 Cluster C 1 Cluster C 2 D 1 D 2 D 3 Données associées au cluster R ( ) = 1 P ( ) = 1 R ( ) = 1 P ( ) = 2/3 D 5 D 6 D 7 D 8 Données associées au cluster R ( ) = 4/5 P ( ) = 1 R ( ) = 1 P ( ) = 1/2 : Proriétés des données de C 1 : Proriétés rores de C 1 : Proriétés des données de C 2 : Proriétés rores de C 2 Figure 1. Princie des indices de Rael(R)-Précision(P) non suervisés. Le Rael ermet de mesurer l exhaustivité du contenu des clusters, lié à la résence de roriétés qui leur sont sécifiques (que nous nommons «roriétés rores»). Plus un cluster résente un ensemble de roriétés rores qui lui sont exclusives, lus il se distingue des autres clusters, et donc lus le critère d hétérogénéité entre clusters est renforcé. La Précision mesure l homogénéité des clusters en termes de roortion de données contenant les roriétés rores de ces remiers. Plus les données associées à un cluster résentent des roriétés rores communes, lus elles sont similaires entre elles, et donc lus le critère d homogénéité à l intérieur des clusters est renforcé. Plus récisément, soit une artition P = (C 1 ; ;C k ) issue d une classification non suervisée d un ensemble de documents. Pour un cluster C, nous ouvons définir l ensemble des roriétés rores S c : W d C d SC = { d, d Ci C W C = max ' ( W c' )}, avec W C = (Eq. 2) C P W où et d W rerésente le oids de la roriété our un document d. C W rerésente le raort du oids cumulé de la roriété dans le cluster C ar raort à son oids total dans la artition. Les roriétés rores maximisent donc le rael ondéré ( W ). C C ' P d C ' d

8 Nous ouvons donc définir l ensemble des clusters rores de la artition P comme suit : P = { C P S C } (Eq. 3) Dans cet ensemble de clusters rores, nous définissons alors les Macro Rael- Précision comme les valeurs moyennes de Rael et de Précision our l ensemble des clusters. Ils rennent les formes suivantes : R M 1 1 P S = ; c P C P C SC P M 1 1 P C P S = (Eq. 4) C SC c c où c résente l ensemble des données du cluster C ossédant la roriété et P rerésente l ensemble des données de la artition P ossédant la roriété. Le Macro-Rael et la Macro-Précision ont des comortements inverses en fonction du nombre de clusters. Ainsi, ces indices ermettent d'estimer de manière globale un nombre otimal de clusters our une méthode donnée et our un ensemble de données fixé. La meilleure artition est dans ce cas celle qui minimise l écart entre leur valeur. Nous avons réalablement montré [19] qu un des avantages déterminants de cette aroche, qui s insire de l analyse du comortement des classificateurs symboliques, est d être indéendante de la méthode de clustering utilisée, contrairement aux aroches basées sur la distance. Elle ermet donc de comarer différentes méthodes entre elles. Ceendant, son défaut rincial est que la Macro-Précision, en articulier, est eu sensible à la résence de clusters hétérogènes de fort effectif, surtout dans le cas de l existence conjointe d un nombre imortant de clusters de faible taille [8]. En conclusion, même si les Macro-mesures ermettent d estimer le nombre otimal de clusters our une méthode donnée, elles ne ermettent as our autant d estimer la qualité intrinsèque de la artition roduite ar ladite méthode. Pour corriger cela, nous définissons ci-arès de nouveaux indices de Micro Rael/Précision, calculés en moyennant directement les valeurs de Rael/Précision sur l ensemble des roriétés rores, et non lus sur les clusters : R m 1 c = ; L P c C, Sc P m 1 c = (Eq. 5) L c c C, S c où L rerésente la dimension de l esace de descrition des documents. Les Micro- Rael/Précision ossèdent des caractéristiques générales analogues aux Macro- Rael/Précision. Ceendant, en les comarant avec ces derniers indices, il devient ossible d identifier des résultats de clustering hétérogènes. En effet, dans ce dernier cas, les Précisions des clusters de etite taille ne comenseront lus celles des clusters de grande taille et les roriétés imrécises résentes dans ces derniers, s ils s avèrent

9 hétérogènes, auront un effet considérable sur la Micro-Précision. Par conséquent, même si la Macro- et la Micro-Précision mesurent toutes deux le degré d homogénéité des clusters, l écart entre ces deux mesures ermet de confirmer la résence de clusters hétérogènes de taille imortante. D'une manière comlémentaire, nous définissons des étiquettes dont le rôle est de mettre us sécifiquement en lumière les caractéristiques ou les roriétés sécifiques des clusters inhérents à une artition. Cet étiquetage eut être ainsi emloyé our visualiser ou synthétiser des résultats de clustering [21], ou bien encore our valider ou otimiser l arentissage d'une méthode de clustering [1]. Il eut se baser sur les roriétés endogènes des données aussi bien que sur leurs roriétés exogènes. Les roriétés endogènes des données rerésentent celles qui sont emloyées durant le rocessus de clustering. Les roriétés exogènes rerésentent des roriétés comlémentaires, ou des roriétés sécifiques de validation. Des mesures de ertinence d'étiquette euvent être directement dérivées des indices de qualité que nous avons résentés récédemment. Aussi, our une roriété, le Rael d étiquette L-R dérive directement de l équation 2. Il est exrimé comme : La Précision d étiquette L-P eut être exrimée comme : L R( ) = W c (Eq. 6) c L P( ) = c d c W d, d c En conséquence, our un cluster c, l'ensemble d'étiquettes L C qui euvent lui être attribuées est l ensemble des roriétés des données qui maximisent la F-mesure d étiquettage à l intérieur de ce cluster, c'est-à-dire celle qui vérifient : où la F-mesure d étiquettage L F( ) eut être définie comme : c c d W d (Eq. 7) {, ( ) ( ( ))} L = d d c L F = Max L F (Eq. 8) c c C c 2( L R( ) L P( )) c c L F( ) = c L R( ) + L P( ) c c Dès lors que le Rael d'étiquette est équivalent à la robabilité conditionnelle P(c ) et la Précision d'étiquette est équivalente à la robabilité conditionnelle P( c), cette stratégie d étiquetage eut être comrise comme une aroche de maximisation de vraisemblance, relativement à la définition originale donnée ar Demster et al. [3]. (Eq. 9)

10 Dans la section suivante, nous utiliserons les mesures de Macro/Micro Précision, Rael, F-mesure, ainsi que la F-mesure d étiquettage our réaliser les évaluations numériques des résultats de clustering. Nous réaliserons également une analyse qualitative ar le biais des étiquettes associées aux clusters. 4. Comaraison des méthodes de clustering Le but de notre remière exérience est de comarer le comortement des méthodes de clustering neuronales décrites en section 2 sur deux tyes différents de corus de données textuelles, à savoir un corus thématiquement homogène et un corus olythématique, de manière à aorter lus de lumière sur les qualités et les défauts effectifs de ces méthodes dans un contexte suffisamment général. Notre corus-test de données thématiquement homogènes est un ensemble de 1000 notices de brevets se raortant à la technologie des huiles moteurs enregistrées durant l'année Un index brut est roduit à artir du texte associé au sous-cham des notices décrivant le domaine d'utilisation des brevets, en exloitant un analyseur lexicograhique ermettant d extraire des termes comosés [11]. Cet index brut est ensuite normalisé en fusionnant les termes synonymes (ar exemle «ingénierie des huiles» et «fabrication des huiles»). Chaque notice de brevet est ensuite indexée ar une sélection de termes issue de l'index normalisé. Nous avons finalement aliqué un seuil de fréquence de 2 sur les termes d'indexation, avec comme conséquence de réduire l esace de descrition des notices à un esace de 234 mots-clés. Le corus résultant eut être considéré comme un corus homogène uisqu'il couvre le cham élémentaire du domaine d'utilisation des brevets avec un vocabulaire normalisé limité et contextuel. Notre corus-test de données hétérogène, ou olythématique, rerésente de son coté un ensemble de 1341 notices bibliograhiques issues de la base de données de PASCAL de l INIST et couvrant 1 année comlète de recherche (i.e. 2005), tous domaines confondus, et imliquant au moins un laboratoire de recherche Lorrain 3. Comme dans le cas des notices de brevets, la structure d une notice bibliograhique est une structure multichams (titres, auteurs, affiliations, résumé, mots-clés, ) qui synthétise l information contenue dans la ublication corresondante. Dans notre exérience, seuls sont ris en comte les termes résents dans le cham des mots-clés. Un seuil de fréquence de 3 est finalement aliqué sur ces termes d'indexation, avec comme conséquence de réduire l esace de descrition des notices à un esace de 889 mots-clés. Comme ces mots-clés couvrent malgré tout un grand ensemble de sujets différents (aussi éloignés les uns des autres que la médecine, la hysique structurelle ou la sylviculture), le corus résultant eut cette fois être considéré comme un corus fortement olythématique. Dans les deux cas, un rétraitement est aliqué aux index résultants des notices de manière à en obtenir une rerésentation vectorielle. Les vecteurs obtenus sont ensuite ondérés selon le schéma de ondération IDF [27], afin de diminuer l'effet des termes d index les lus réandus. Les méthodes de clustering neuronales que nous avons récédemment décrites ont toutes été considérées dans nos exérimentations. Nous avons également considéré la méthode K-MEANS [25] dans ces exérimentations afin de confronter aux méthodes susdites une méthode de référence de la catégorie des méthodes de clustering non neuronales. Pour chaque méthode neuronale, ainsi que our la méthode K-MEANS, nous avons oéré lusieurs arentissages différents, en faisant varier le nombre de clusters dans le cas des méthodes statiques (SOM, NG), et les aramètres de 3 Ces notices ont été extraites de la base à artir de l interface STANALYST de l INIST.

11 voisinage dans le cas des méthodes dynamiques (GNG, IGNG, I2GNG). Nous avons finalement conservé la meilleure artition roduite ar chaque méthode en nous basant sur l examen des valeurs de Macro Rael-Précision définies à la section 2 (Equation 1-4). Dans le cas de la méthode IGNG, nous avons otimisé le rocessus en en faisant varier le aramètre de voisinage autour de la valeur otimale théorique T. Nous avons observé que les meilleurs résultats de clustering étaient obtenus ar l emloi de valeurs lus etites que T. Nous avons donc défini une fonction d'évolution du aramètre telle que : σ = σ, 1 σ = β σ, avec β < 1. i+ 1 T i Dans le cas d'igng, nous avons otimisé le rocessus en faisant varier selon cette dernière stratégie. Le même rocessus est également oéré avec la méthode I 2 GNG en utilisant ceendant une variation du aramètre relative à chaque cluster en lieu et lace d une variation absolue. Les résultats de clustering obtenus sur les données thématiquement homogènes et ceux obtenus sur les données olythématiques sont résentés dans le tableau 1. DONNEES THEMATIQUEMENT HOMOGENES DONNEES POLYTHEMATIQUES METHODE DE CLUSTERING NBR OPTIMAL DE CLUSTERS F- MESURE MACRO F- MESURE MICRO NBR OPTIMAL DE CLUSTERS F- MESURE MACRO F- MESURE MICRO K-MEANS SOM NG GNG IGNG I 2 GNG Tableau 1. Résultats de clustering sur le corus de données thématiquement homogènes et sur le corus de données olythématiques our l ensemble des méthodes testées.

12 L'analyse des mesures de qualité sur le remier corus de données homogènes met en évidence de bons résultats our resque toutes les méthodes neuronales, exceté our la méthode I 2 GNG. Les meilleurs résultats sont obtenus avec les méthodes basées sur une toologie libre, et articulièrement avec la méthode NG et avec la méthode IGNG. De lus, étant donné que la uissance de la synthèse d une méthode de clustering est aussi liée à sa caacité à roduire de bons résultats avec un nombre de clusters aussi faible que ossible, l avantage tourne nettement en faveur d'igng qui obtient une Micro-F-mesure ratiquement équivalente à celle du NG, tout en nécessitant un nombre de clusters deux fois moindre. Un autre résultat intéressant est également mis en lumière ar cette exérience : dès lors que l on eut otimiser son nombre de clusters, comme c est le cas dans le cadre de cette exérience, l'algorithme d'arentissage de NG semble être lus efficace que celui de GNG (nombre final de clusters similaire our les deux méthodes avec de meilleures valeurs de qualité our la méthode NG). Dans le cas de la méthode non neuronale K-MEANS, il aarait une différence assez nette entre la Macro F-mesure et la Micro F-mesure. Comme nous l avons décrit dans la section 3, cette différence illustre des résultats de clustering déséquilibrés comrenant des clusters bruités de taille imortante 4. Les résultats d I 2 GNG aaraissent seulement moyens, alors qu ils devraient être au moins équivalents à ceux d IGNG, étant donné que ce remier algorithme est censé rerésenter une amélioration du second. La méthode I 2 GNG semble donc clairement souffrir de roblèmes d'initialisation, comme cela ouvait être ressenti. En effet, comme aucune valeur ar défaut n est fournie ar cette méthode our définir l'influence de voisinage d'un cluster nouvellement créé (celui-ci ne contient alors qu une seule donnée associée), chaque cluster eut initialement agglomérer aléatoirement n'imorte quel tye de données, y comris des données qui sont très dissimilaires les unes des autres. Ceci eut ar conséquent mener à la création des clusters hétérogènes de taille relativement imortante qui euvent à leur tour coexister avec des clusters de très etite taille, notamment si des groues de données suffisamment discriminants sont résents dans le corus d arentissage. Une remière analyse des résultats sur notre deuxième corus de données olythématiques rouve que la luart des méthodes de clustering ont des difficultés énormes à traiter ce tye de données, roduisant ar conséquent des résultats de qualité très médiocre, même our leur nombre otimal de clusters. Ces mauvais résultats sont illustrés lus articulièrement ar de faibles valeurs de Micro F-mesure. La différence très élevée entre les valeurs de Macro F-mesure et de celles de Micro F-mesure illustre quant à elle la résence de clusters-oubelles attirant la majeure artie des données, arallèlement à celle de clusters-oussières rerésentant des groues marginaux, ou encore non comlètement formés. C'est très nettement le cas our les méthodes K-MEANS et I 2 GNG, et à une lus faible amleur our la méthode NG. La méthode IGNG qui a roduit les meilleurs résultats avec des données homogènes devient également fortement concernée ar ce hénomène à artir du moment où elle doit gérer des données olythématiques. Le seul comortement relativement cohérent sur ces données est celui de la méthode SOM. Celui-ci est illustré ar une valeur moins faible de Micro F-mesure et ar une bonne concordance entre la valeur de Micro F-mesure et celle de Macro F-mesure. Un cas très critique est celui de méthode K-MEANS, dont le résultat revient en définitive à agglomérer l ensemble des documents du corus dans un seul cluster de taille significative 5. Une situation également critique se roduit avec la méthode GNG qui ne fournit aucun résultat sur ce corus en raison de son incaacité à s'échaer d'un cycle infini de la création-destruction de neurones, autrement dit de clusters. Les résultats ainsi que les comortements des méthodes euvent être confirmés ar une exertise arofondie du contenu des clusters et de la 4 Ce hénomène va s accentuer our cette méthode et toucher quasiment toutes les autres méthodes dans le cas du traitement de données hétérogènes. 5 Dans le cas du corus olythématique, la méthode K-MEANS ne roduit systématiquement qu un seul cluster significatif associé à des clusters-miettes ne contenant qu un seul document (un cluster de 1189 documents et 154 clusters d 1 seul document, dans notre cas). Ce qui revient à dire que dans ce cas, cette méthode à un ouvoir de discrimination nul.

13 distribution des tailles de ces derniers. Pour faciliter ce travail, il est également ossible de juger de la nature des résultats en s intéressant aux étiquettes qu il est ossible d associer aux clusters en emloyant la stratégie de maximisation de vraisemblance décrite ar l équation 8. Les résultats des étiquetages obtenus ar cette stratégie our les cas resectifs des méthodes K-MEANS et SOM sont résentés aux figures 2 et 3. [1189] Racine Densité Protéine Loi échelle Aareil resiratoire athologie Condition aux limites Forêt Protéine lait Protection environnement Prévision Analyse donnée Pollution air Fibre In situ DNA Alcool Mécanique roche Sol Méthode analytique Cosmologie Traitement donnée Cartograhie Végétation Rhizoshère Eau otable Alication Méthode Monte Carlo Zone urbaine Grain Pédiatrie Cours eau Logiciel Partie aérienne végétal Inhibiteur enzyme Diagramme hase Photosynthèse Système nerveux athologie Exression génique Variation saisonnière Nucléosynthèse Biodisonibilité Matière organique Ingénierie Vérification rogramme Cytométrie flux Lymhocyte T Diffusion(transort) Floculation Analyse comosante rinciale Dérédateur Détection Produit contraste Arbre forestier feuillu Tolérance Industrie alimentaire Système à retard Tolérance faute Système tems réel Problème NP difficile Aareil resiratoire Polymère Synchronisation... Figure 2. Vue générale des étiquettes d un cluster généré ar la méthode K-MEANS. Ce cluster regroue 1189 documents sur les 1341 du corus, et 840 étiquettes sur les 889 de fréquence suérieure 3. Il attire un grand nombre d étiquettes de différentes natures, figurant un contenu très hétérogène. [28] 27-- Etude théorique Méthode dynamique moléculaire Simulation numérique Interface gaz liquide Continuum Modèle thermodynamique Fluide non newtonien Diffusion Nanoarticule Laser semiconducteur Proriété mécanique Analyse statistique Système binaire Comressibilité Point critique Proriété rhéologique Ecoulement conduite Perte charge Macromolécule Effet dimensionnel Mouillage [21] 38-- Zone temérée Foresterie Arbre forestier feuillu Arbre forestier Peulement forestier Plante ligneuse Forêt décidue Montagne Sylviculture Futaie Arbre forestier résineux Formation végétale Gestion forestière Dendrométrie Peulement forestier artificiel Filière bois Ecohysiologie Stade juvénile lante Entomologie Phytoathologie Caractéristique eulement Industrie bois Qualité roduction Tolérance Economie forestière Déérissement forêt Modèle simulation Peulement forestier mélangé Symtomatologie Recommandation Bois feuillu Histoire Réglementation Bois résineux Contrainte Photosynthèse Climat Canoée [16] 28-- Cardioathie Insuffisance cardiaque Aigu Conduite à tenir Myocarde athologie Pronostic Mortalité Chimiothéraie Eidémiologie Aareil circulatoire Chronique Evolution Cœur Stratégie Electrocardiograhie Santé ublique Electrodiagnostic Facteur rédictif Maladie Prévalence Soin Comlication Coût Maladie héréditaire Tomodensitométrie Résultat Risque Figure 3. Vue générale des étiquettes extraites de la artition générée ar la méthode SOM, récédées du nombre de documents et du nombre d étiquettes ar classe. Il y a ici différents clusters de taille semblable attirant des groues d'étiquettes sémantiquement homogènes.

14 Une cause lausible du roblème d'agglomération de données, se roduisant avec resque toutes les méthodes de clustering examinées avec ce corus, est la nature de la similarité exloitée ar défaut ar l ensemble des méthodes exérimentées endant l'arentissage, en l occurrence la distance euclidienne. En effet, c'est un hénomène connu que cette distance, qui est la mesure de similarité la lus utilisée our le clustering, devient faiblement discriminante dans les esaces fortement multidimensionnels contenant des données éarses [30] : dans ce contexte la distribution des distances euclidiennes est fortement biaisée vers les etites valeurs, ce qui revient également à considérer les données comme très similaires entre elles. Seul l arentissage sous contrainte de grille roosé ar la méthode SOM de Kohonen semble rerésenter une bonne stratégie our réserver celle-ci de roduire des résultats tro mauvais dans un contexte aussi critique. De fait, ce tye d arentissage imose l homogénéité des résultats en réartissant à la fois les données et le bruit sur la grille. Afin de résoudre les roblèmes observés sur le corus de données olythématiques, nous roosons à la section suivante lusieurs adatations alicables sur les algorithmes de clustering otentiellement les meilleurs sur les données homogènes. 5. Adatations originales des algorithmes IGNG et I2GNG 5.1 Adatations d'igng Choix aléatoire du gagnant final armi des gagnants multiles (IGNG-R) : Du fait de l'utilisation d'une distance non discriminante, nous avons u vérifier exérimentalement qu à beaucou d'étaes de l'arentissage de l algorithme IGNG il existait lusieurs neurones concurrents qui ouvaient être considérés comme des gagnants otentiels, étant donné que ces neurones avaient la même distance vis-à-vis de la donnée d'entrée courante. L'algorithme doit ceendant choisir un gagnant final du fait de sa stratégie de tye «le gagnant emorte le lus». Dans l'algorithme original, chaque fois que cette situation se résente, la stratégie aliquée ar défaut consiste à rendre comme gagnant final le remier neurone de la liste des neurones créés. Dans le cas du corus de données olythématiques ce roblème s est révélé être très fréquent, et conduit directement à l'aarition d'un cluster-oubelle, rerésenté ar le remier neurone créé. Une meilleure stratégie consiste à effectuer un rocessus de sélection aléatoire dans le cas où un gagnant doit être choisi armi lusieurs neurones équidistants d une donnée d'entrée. La conséquence indirecte de cette nouvelle stratégie est également celle de reartir le bruit entre lusieurs neurones. Choix du gagnant final armi des gagnants multiles emloyant une aroche de maximisation de l étiquetage des clusters (IGNG-M) : Chaque fois qu'un gagnant doit être choisi armi lusieurs neurones équidistants d une donnée d'entrée, une stratégie lus ertinente que l'aroche aléatoire consiste à emloyer une aroche de maximisation de la F-mesure de l étiquetage our choisir le gagnant final. Selon cette stratégie, la donnée d'entrée est d abord attachée à tous les challengers otentiels our créer des «challengers-augmentés», et la F-mesure moyenne d'étiquetage des «challengers-augmentés» est calculée sur la base de l'équation 8. Le gagnant est ensuite choisi comme le challenger dont l état augmenté maximise ositivement la différence de F-mesure moyenne d étiquetage avec son état standard. Utilisation directe d'une aroche de maximisation de la qualité de l étiquetage des clusters comme mesure de similarité (IGNG-F) : La dernière stratégie résentée eut malgré tout ne as ermettre de faire face à l'influence critique de la distance euclidienne dès lors que, dans cette stratégie, cette distance non discriminante reste emloyée comme critère de sélection rincial. Une stratégie qui semble lus adéquate consiste

15 donc à surimer comlètement l'utilisation de la distance euclidienne dans le rocessus de sélection d un gagnant, en considérant cette fois l'aroche de maximisation de la qualité de l'étiquetage des clusters comme seul rocessus de sélection. Un autre avantage d une telle stratégie est de fournir our la remière fois à la l aroche IGNG un caractère véritablement incrémental. En effet, ce nouvel algorithme fonctionne sans ne nécessiter aucun aramètre rédéfini déendant du corus analysé ou de données initiales. Un autre de ses avantages déterminants our l incrémentalité est qu il eut rendre en comte un esace de descrition des données d entrée ouvert, ou évolutif. 5.2 Adatation d'i2gng Stratégie d'initialisation de récirocité de voisinage (I 2 GNG-N) : Une aroche ossible our faire face aux roblèmes d'initialisation de la méthode I 2 GNG eut consister à créer des noyaux d'initialisation afin de fournir des aramètres initiaux d'influence de voisinage aux clusters. Dans ce contexte, une stratégie d initialisation basée sur les voisins réciroques [4] semble être l une des lus aroriées. En effet, cette stratégie résente l avantage de minimiser l'influence de l'initialisation sur l'évolution ultérieure des clusters. Néanmoins, un des inconvénients rinciaux d emloyer une stratégie d initialisation, quelle qu elle soit, est de surimer le caractère incrémental de cet algorithme. 5.3 Nouveaux résultats Le tableau 2 illustre les résultats obtenus avec nos nouvelles stratégies. Il démontre lus articulièrement l'efficacité de notre stratégie de clustering basée directement sur la maximisation de l étiquetage (IGNG-F) qui surasse toutes les stratégies existantes, en roduisant les résultats les meilleurs sur les données olythématiques, et notamment avec le lus etit nombre de clusters. On eut également remarquer qu'une amélioration significative des erformances de l'algorithme I 2 GNG est obtenue une fois qu une stratégie d'initialisation du voisinage des clusters est emloyée (I 2 GNG-N). METHODE DE CLUSTERING NBR OPTIMAL DE CLUSTERS F-MESURE MICRO SOM (Référence) IGNG Original IGNG-R (Affectation aléatoire des égaux) IGNG-L (Affectation des égaux ar maximisation d étiquetage) IGNG-F (Similarité basée sur la maximisation d étiquetage) I 2 GNG Original I 2 GNG-N (Initialisation ar voisinage réciroque) Tableau 2. Résultats de clustering sur le corus de données olythématiques our les nouveaux algorithmes déveloés.

16 6. Conclusion Dans ce travail, nous avons montré que les méthodes de clustering neuronales, comme la méthode IGNG, affichaient de très bonnes erformances dans le contexte de l'analyse d un corus de données textuelles homogènes. Pour évaluer les erformances de ces méthodes nous avons exloité des mesures sécifiques de qualité qui résentent la roriété d être indéendantes de la méthode considérée. En exloitant ces mêmes mesures, nous avons également montré la diminution drastique de erformance de la luart des méthodes de clustering, quand un corus de données textuelles olythématiques est considéré en entrée. Ce roblème eut s avérer critique dans le cadre de nombreuses alications, comme les alications de veille, et en articulier celles de lus en lus nombreuses, qui sont amenées à maniuler des données olythématiques, hétérogènes ou changeantes. Il y avait donc nécessité de réviser en rofondeur le mode oératoire des méthodes de clustering. En nous basant sur certains des rincies de nos mesures de qualité, nous avons roosé un algorithme de gaz neuronal croissant original exloitant une nouvelle mesure de similarité basé sur la maximisation de la qualité de l'étiquetage des clusters, comme alternative à la distance euclidienne exloitée dans les aroches usuelles. Nous avons exérimentalement rouvé que cette nouvelle méthode fournissait des résultats suérieurs aux méthodes de référence existantes en contexte olythématique. Par ailleurs, il aarait qu elle fournit également un véritable caractère incrémental à l'algorithme que nous avons roosé. Ces dernières ossibilités nous ouvrent des ersectives claires our aliquer dans un futur roche notre nouvelle aroche de clustering incrémentale au domaine de l'exloitation des données textuelles changeant au cours du tems. Dans un futur lus lointain, nous comtons également aliquer cette aroche, en l associant au aradigme d analyse de données multi-vues que nous avons récédemment roosé [20], à d autres domaines orteurs mettant en jeux des données numériques en arallèle avec des données textuelles, tout en intégrant une dimension temorelle, comme c est le cas des données génomiques. Nous comtons également adater le rincie original de similarité ar maximisation d'étiquetage des clusters à lusieurs autres algorithmes de clustering. La latitude d évolution de notre nouvelle aroche our l analyse rosective et our la veille est donc articulièrement grande. 7. Bibliograhie [1] Attik M., Al Shehabi S. and Lamirel J.-C. (2006). Clustering Quality Measures for Data Samles with Multile Labels. Proceedings of the The IASTED International Conference on Databases and Alications (DBA), Innsbruck, Austria, February [2] Davies, D.and Bouldin, W. (2000). A cluster searation measure. IEEE Trans. Pattern Anal. Machine Intell, 1(4), [3] Demster, A.P., Laird, N.M. and Rubin, D.B. (1977). Maximum likelihood for incomlete data via the em algorithm. Journal of the Royal Statistical Society, vol. B-39: [4] De Rham C. (1980). La classification hiérarchique ascendante selon la méthode des voisins réciroques. Les cahiers de l analyse de données, Vol. 5, No. 2, ages , [5] Dunn J. (1974): Well Searated clusters and otimal fuzzy artitions. Journal of Cybernetics,4,

17 [6] Fritzke B. (1995). A growing neural gas network lerans toologies. Tesauro G., Touretzky D. S., leen T. K., Eds., Advances in neural Information rocessing Systems 7, , MIT Press, Cambridge MA. [7] François C., Hoffmann M., Lamirel J.-C. and Polanco X. (2003). Artificial Neural Network maing exeriments. EICSTES (IST ) Final Reort (WP 9.4), 86., Setember [8] Ghribi M., Cuxac P., Lamirel J.C., Lelu A. (2010). Mesures de qualité de clustering de documents : Prise en comte de la distribution des mots clés. Atelier EGC EVALECD, Hammamet, Tunisia, January [9] Hamza H., Belaïd Y., Belaïd. A and Chaudhuri B. B. (2008). Incremental classification of invoice documents. 19th International Conference on Pattern Recognition - ICPR [10] Hebb, D.O. (1949). The Organization of Behavior: A Neurosychological Theory, Wiley, New York, [11] Jouve, O. (1999). Les nouvelles technologies de la recherche d information, Séminaire Documentation, Paris. [12] Kaski S., Honkela T., Lagus K. and Kohonen, T. (1998). WEBSOM-self organizing mas of document collections, Neurocomuting, vol. 21, [13] Kassab R. and Lamirel J.-C. (2008). Feature Based Cluster Validation for High Dimensional Data. IASTED International Conference on Artificial Intelligence and Alications (AIA), Innsbruck, Austria, February [14] Kohonen T. (1982). Self-organized formation of toologically correct feature mas. Biological Cybernetics, vol. 43, [15] Kohonen T. (2001). Self-Organising Mas. 3rd ed. Berlin: Sringer-Verlag, [16] Lamirel J.-C. and Créhange M. (1994). Alication of a symbolico-connectionist aroach for the design of a highly interactive documentary database interrogation system with on-line learning caabilities. Proceedings ACM-CIKM 94, Gaitherburg, Maryland, USA, November 94. [17] Lamirel, J-C., Ducloy J. and Oster, G. (2000). Adatative browsing for information discovery in an iconograhic context, In Conference Proceedings RIAO, Paris, Vol. 2, [18] Lamirel J.-C. and Al Shehabi S. (2003). Neural Network driven Patent Analysis. Proceedings of ACL 2003 Worksho on Patent Analysis, Saoro, Jaan, July [19] Lamirel J.-C., Al-Shehabi S., François C. and Hoffmann M. (2004a). New classification quality estimators for analysis of documentary information: alication to atent analysis and web maing. Scientometrics, 60(3). [20] Lamirel J.-C., Al Shehabi, S., François, C., & Polanco, X. (2004b). Using a comound aroach based on elaborated neural network for Webometrics: an examle issued from the EICSTES Project. Scientometrics, Vol. 61, No. 3, [21] Lamirel J.-C., Ta A.P. and Attik M. (2008). Novel Labeling Strategies for Hierarchical Reresentation of Multidimensional Data Analysis Results. IASTED International Conference on Artificial Intelligence and Alications (AIA), Innsbruck, Austria, February [22] Lebart L.,Maurineau A., Piron M. (1982): Traitement des données statistiques. Dunod, Paris. [23] Martinetz T. and Schulten K. (1991). A "neural gas" network learns toologies. In Kohonen, T., Makisara K., Simula O., and Kangas J., editors, Articial Neural Networks, Elsevier Amsterdam. [24] Merkl D., Shao H.H., Dittenbach M. and Rauber A. (2003). Adative hierarchical incremental grid growing: an architecture for high-dimensional data visualization. In Proceedings of the 4th Worksho on Self-Organizing Mas, Advances in Self-Organizing Mas, , Kitakyushu, Jaan, Setember

18 [25] MacQueen J.B. (1967). Some methods of classification and analysis of multivariate observations. L. Le Cam and J. Neyman (Eds.), Proc. 5th Berkeley Symosium in Mathematics, Statistics and Probability, vol 1., , Univ. of California, Berkeley, USA, [26] Prudent Y. and Ennaji A. (2005). An Incremental Growing Neural Gas learns Toology. ESANN2005, 13th Euroean Symosium on Artificial Neural Networks, Bruges, Belgium, 27-29Aril 205, ublished in Neural Networks, IJCNN aos;05. Proceedings IEEE International Joint Conference, vol. 2, no , July-4 Aug [27] Robertson S. E. and Sarck Jones, K. (1976). Relevance Weighting of Search Terms. Journal of the American Society for Information Science, 27: [28] Rousseeuw P.J. (1987). Silhouettes: a grahical aid to the interretation and validation of cluster analysis. Journal of Comutational and Alied Mathematics, 20, [29] Varsis A. and Versino C. (1992). Clustering of Socio-Economic Data with Kohonen Mas, In Proceedings of third International Worksho on Parallel Alications in Statistics and Economics, Pragues, Czechoslovakia. [30] Verleysen, M. (2004). Learning High-Dimensional Data with Artificial Neural Networks, LEARNING 04, Elche, Sain, October 2004.