TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba, Tunisie sami.zghal@planet.tn LIMOS, Université Blaise Pascal, BP 10448, 63000, Clermont-Ferrand, FRANCE {mohamed.moussaoui.com,wajdidhifli,nguifo.mephu}@gmail.com Résumé. Avec l émergence de bases de graphes, la découverte des sous-graphes fréquents est largement traitée. L extraction des sous-graphes fréquents est utile dans la plupart des tâches de découverte des connaissances, telles que la classification, le regroupement (clustering), l indexation, etc. Cependant, leur utilisation dans la vie réelle est beaucoup plus faible par rapport à leur potentiel. La principale raison est le manque d intelligibilité causée par le très grand nombre des sous-graphes fréquents découverts, ce qui peut gêner une tâche plus approfondie. Alors, il y a un besoin éventuel de sélectionner un petit ensemble de sous-graphes pertinents. Dans ce travail, nous proposons une nouvelle approche nommée TRS (Topological Representative Subgraphs) qui permet de sélectionner des top-k sous-graphes représentants parmi les sous-graphes fréquents en se basant sur un ensemble d attributs topologiques. Mots clefs: Sélection des sous-graphes, sous-graphe représentant, sous-graphe fréquent, base de graphes 1 Introduction Les graphes sont fréquemment utilisés dans la modélisation des structures complexes, tels que les réseaux sociaux, les composants chimiques et les protéines. Une des façons utilisées pour décrire un graphe est d extraire l ensemble des sous-graphes fréquents qui se produisent fréquemment dans un ensemble de graphes. Cependant, leur utilisation dans la vie réelle est beaucoup plus faible par rapport à leur potentiel grâce au nombre exponentiel de sous-graphes fréquents extraits. Par exemple, un ensemble de graphe de taille moyenne peut produire des millions de motifs fréquents avec une valeur de support raisonnable. Ces dernières années, les chercheurs ont ressenti le besoin de sélectionner l ensemble de sous-graphes fréquents extraits, de sorte que cette sélection doit être petite, non redondante et discriminante. Dans la littérature, il existe plusieurs techniques de fouille de données qui traitent le problème de l explosion du nombre de sous-graphes fréquents extraits [6] [1] [3] [4]. Cependant, le nombre de sous-graphes sélectionnés est encore élevé. Comme la plupart des sous-graphes fréquents diffèrent légèrement dans leur structure. De nombreuses approches de sélection des sous-graphes ont été proposées sur la base de la similarité structurelle exacte ou approximative. Ces approches consistent à tester la similarité structurelle des graphes en établissant une correspondance entre eux. Nous croyons que cette stratégie de détection de similarité n est pas assez efficace avec plusieurs applications réelles. D une part, afin de trouver une correspondance possible entre les deux graphes, nous devons vérifier tous les noeuds et les arêtes dans les deux graphes pour chaque itération possible jusqu à une correspondance structurelle trouvée ou une itération n est plus possible, cela entraîne un calcul très coûteux. D autre part, la détection des similarités structurelles soit d une manière exacte ou approximative ne sont pas suffisamment efficaces pour obtenir tous les sous-graphes similaires puisque les données sont souvent bruyantes. Par conséquent, la similarité structurelle exacte ne permet pas une détection légère des différents sousgraphes similaires, et la similitude structurelle approximative a toujours un problème du réglage de seuil. Cela pose la nécessité d une autre façon pour détecter la similarité structurelle d une perspective différente qui permet d avoir des similitudes structurelles. Par ailleurs, un utilisateur peut être intéressé par un ou quelques propriétés structurelles spécifiques selon le contexte de l application. Toutefois, la similarité structurelle exacte ou approximative ne permet pas cette spécificité. 2 Top-k sous-graphes représentants Nous présentons une solution qui réduit le nombre exponentiel des sous-graphes fréquents extraits par la sélection d un sousensemble représentant et pertinent. Pour que la tâche de découverte des connaissances devient plus abordable, notre approche est basée sur un ensemble d attributs topologiques. La première étape consiste à extraire un ensemble de sous-graphes fréquents à partir d une base de graphes. Dans la deuxième étape, les valeurs de l ensemble d attributs topologiques sont calculées pour chaque sous-graphe fréquent extrait. Dans cette étape, un vecteur caractéristique (attributs topologiques) est construit pour chaque sous-graphe fréquent. La troisième étape consiste à utiliser K-medoïdes comme une méthode de partitionnement de données dans le but d obtenir les centroïdes des groupes (clusters). Ces centroïdes sont considérés comme des représentants de données mis dans le même groupe. Ces représentants nous permettront par la suite à découvrir des connaissances d une manière simple, rapide et pratique.
TRS 2.1 Attributs topologiques Nous adoptons un cadre de sélection qui consiste à extraire un sous-graphe représentant de chaque ensemble de sous-graphes structurellement similaires. Par conséquence, nous créons un vecteur caractéristique pour chaque sous-graphe contenant les valeurs correspondantes pour un ensemble d attributs topologiques comme le degré moyen, la densité, le coefficient de clustering moyen, etc. Ces attributs sont des paramètres structuraux qui permettent de décrire des graphes complexes. Nous avons sélectionné un ensemble d attributs topologiques de la littérature qui sont très intéressants et efficaces pour décrire les données du graphe. 2.2 Algorithme Nous proposons l algorithme TRS qui permet de sélectionner k sous-graphes représentants en se basant sur 17 attributs topologiques. Le processus général de l algorithme TRS est décrit comme nous montre l algorithme 1. Tout d abord, une extraction des sous-graphes fréquents qui ont une fréquence supérieure ou égale à un taux fixé a priori à partir d une base de graphes D. Ensuite, un calcul des valeurs d attributs topologiques pour chaque sous-graphe fréquent afin de remplir une matrice d attributs dans le but de créer des vecteurs caractéristiques. Puis, une procédure de partitionnement de données est effectuée en identifiant le nombre de groupes k. Finalement, cette procédure donne comme sortie un k sous-graphes représentants. Algorithme 1: TRS Données : D : Une base de graphes, k : Nombre de groupes, τ : Fréquence minimale Résultat : Un ensemble de sous-graphes représentants Ω 1 début 2 Ω Extraction des sous-graphes fréquents τ 3 m Matrice vide 4 pour chaque sous-graphe fréquent j Ω faire 5 v Calculer les valeurs des attributs topologiques pour j 6 m m v 7 fin pour 8 Regroupement_kmedoïdes(k, m) 9 Ω recuperer_medoïdes(ω) 10 Fin 2.3 Approche naïve L approche naïve consiste d abord à créer la matrice de contexte où chaque sous-graphe est représenté par un vecteur contenant des valeurs binaires correspondant à l absence (0) ou la présence (1) des sous-graphes considérés dans chaque instance de la base comme nous montre l algorithme 2. La différence entre TRS et l approche naïve réside au niveau de la matrice utilisée pour décrire les sous-graphes utilisés ultérieurement pour le clustering k-medoïdes. Algorithme 2: APPROCHE NAÏVE Données : Ensemble de sous-graphes fréquents Ω, nombre de représentants k Résultat : Ensemble de sous-graphes représentants Ω = {g 1, g 2,..., g k } 1 début 2 M Ω i=1 V i : chaque sous-graphe g Ω est codé par un vecteur binaire V contenant des valeurs binaires correspondant à l absence (0) ou la présence (1) des sous-graphes considérés dans chaque instance de la base; 3 Ω Regroupement(Ω, k); 4 Fin 3 Étude expérimentale 3.1 Données expérimentales Afin de réaliser notre étude expérimentale et pouvoir détecter les forces et les faiblesses de TRS, nous avons sélectionné cinq échantillons de la littérature, dont nous utilisons deux échantillons de structures protéiques, deux autres échantillons de données biologiques et un ensemble de données synthétique. Nous avons extrait les sous-graphes fréquents pour chaque échantillon de données à l aide de gspan [5]. JFGG - 2
M.Moussaoui et al. 3.2 Résultats et interprétations 3.2.1 Évaluation de la qualité des sous-graphes sélectionnés Dans l objectif de mesurer la performance de notre méthode de sélection, nous utilisons le gain d information comme une métrique d évaluation. Selon [2] le gain d information mesure la quantité de l information concernant la prédiction d une classe. Protéines G Domaine protéique C1 # représentants AN TRS AN TRS 200 0.096 0.343 0.044 0.273 400 0.094 0.339 0.051 0.276 600 0.096 0.340 0.054 0.267 800 0.098 0.352 0.054 0.274 1000 0.094 0.353 0.056 0.276 FSG 0.216 0.148 TAB. 1 Comparaison de gain d information moyen des graphes représentatifs topologiques (TRS) avec ceux sélectionnés par l approche naïve (AN) et l ensemble initial de tous les sous-graphes fréquents (FSG). D après le table 1, on remarque qu en se basant sur le gain d information que TRS est capable de sélectionner un ensemble de sous-graphes largement plus pertinents et plus informatifs que l approche naïve et que l ensemble initial de sous-graphes fréquents. Cela montre l importance la fiabilité de notre approche est que la description basée sur les attributs topologiques permet de mettre l accent sur des propriétés et des relations entre les sous-graphes qui sont ignorées par l approche naïve qui sont cachées ou non-représentées dans l ensemble initial des sous-graphes fréquents. 3.2.2 Temps d exécution Dans cette section, nous présentons la différence entre le temps d exécution du regroupement pris par TRS et celui pris par l approche naïve. Pour effectuer cette tâche, nous avons utilisé l échantillon de données Sida. La figure 1 présente l évolution du temps d exécution obtenu avec les différentes valeurs de k. FIG. 1 Comparaison de temps d exécution du regropement entre l approche proposée et l approche naïve D après cette figure, nous observons dans un premier lieu que le temps d exécution augmente avec les deux approches quand le nombre de medoïdes accroît. Dans un deuxième lieu, nous constatons que le temps d exécution du regroupement avec l approche naïve est très élevé par rapport au temps d exécution du regroupement de notre approche qui prend seulement quelques secondes. Cela montre l efficacité de l approche proposée en terme de temps. Cette réduction de temps d exécution revient à la diminution du nombre d attributs de matrice utilisés par TRS dans le processus du regroupement, ils sont déjà fixés à 17 attributs (le nombre d attributs topologiques utilisés dans ce travail). Au contraire, le processus du regroupement de l approche naïve utilise un nombre d attributs égal au nombre de graphes qui peut être élevé comme le cas de l échantillon de données Sida. 3.2.3 Scalabilité Dans cette section, nous traitons la capacité de TRS à s adapter à l augmentation du volume de données. La génération de l ensemble de graphes synthétiques est effectuée sur deux étapes principales : 1. la première étape consiste à augmenter le nombre de sous-graphes de 10000 à 100000 alors que le nombre de graphes est fixé à 82. 2. la deuxième étape consiste à augmenter le nombre de graphes de 1000 à 10000 et le nombre de sous-graphes reste fixe à 10000. JFGG - 3
TRS FIG. 2 Temps d exécution du regroupement avec la variation du nombre de sous-graphes FIG. 3 Temps d exécution du regroupement avec la variation du nombre de graphes D après la figure 2, on peut constater une augmentation du temps d exécution du regroupement avec les deux approches. Cependant, le temps d exécution pris par notre approche est moins élevé que le temps d exécution pris par l approche naïve. Ainsi, on peut constater dans la figure 3 que le temps d exécution du regroupement de notre approche reste toujours stable avec les différentes valeurs de graphes. Au contraire, nous observons une augmentation remarquable sur le temps d exécution du regroupement pris par l approche naïve. Cela signifie que TRS n est pas influencée par le nombre élevé de graphes. Ce qui indique la capacité de notre approche à s adapter à l augmentation du volume de données. 4 Conclusion Nous avons proposé une nouvelle approche pour sélectionner k sous-graphes représentants en se basant sur un ensemble d attributs topologiques. Au lieu de sélection des sous-graphes de structure exacte ou approximative notre approche suit une stratégie de sélection plus significative, qui contribue à la fois sur la sélection d un sous-ensemble des représentants topologiquement non-redondants et informatifs, et de détecter de nombreuses similarités structurelles que les approches existantes ne parviennent pas à détecter en se basant sur des propriétés topologiques cachées (densité, coefficient de clustering moyen, etc.). Pour notre contribution, les résultats expérimentaux confirment l efficacité de notre méthode pour sélectionner un petit nombre de sous-graphes pertinents, non-redondants et informatifs d une manière rapide. L étude expérimentale a prouvé la capacité de notre approche à s adapter à l augmentation du volume de données. Bibliographie Références [1] Vineet Chaoji, Mohammad Al Hasan, Saeed Salem, Jeremy Besson, and Mohammed J. Zaki. Origami : A novel and effective approach for mining representative orthogonal graph patterns. Stat. Anal. Data Min., 1(2) :67 84, June 2008. [2] Hui Jiang and Wenwu He. A pattern search method for model selection of support vector regression. In In Proceedings of the SIAM International Conference on Data Mining. SIAM, 2002. [3] Yuhua Li, Quan Lin, Ruixuan Li, and Dongsheng Duan. Tgp : mining top-k frequent closed graph pattern without minimum support. In Proceedings of the 6th international conference on Advanced data mining and applications : Part I, ADMA 10, pages 537 548, Berlin, Heidelberg, 2010. Springer-Verlag. [4] Marisa Thoma, Hong Cheng, Arthur Gretton, Jiawei Han, Hans-Peter Kriegel, Alex Smola, Le Song, Philip S. Yu, Xifeng Yan, and Karsten M. Borgwardt. Discriminative frequent subgraph mining with optimality guarantees. Statistical Analysis and Data Mining, 3(5) :302 318, 2010. [5] Xifeng Yan and Jiawei Han. gspan : Graph-based substructure pattern mining. In Proceedings of the 2002 IEEE International Conference on Data Mining, ICDM 02, pages 721, Washington, DC, USA, 2002. IEEE Computer Society. [6] Shijie Zhang, Jiong Yang, and Shirong Li. Ring : An integrated method for frequent representative subgraph mining. In Data Mining, 2009. ICDM 09. Ninth IEEE International Conference on, pages 1082 1087, dec. 2009. JFGG - 4
M.Moussaoui et al. Summary With the emergence of graph databases, the task of frequent subgraph discovery has been extensively addressed. Mining frequent subgraphs is useful in most knowledge discovery tasks such as classification, clustering, indexing. However, their use in real life is much lower compared to their potential. The main reason is the lack of intelligibility caused by the large number of frequent subgraphs discovered, which can hinder further task. So there is a potential need to select a small set of relevant subgraphs. We propose a novel approach named TRS (Topological Representative Subgraphs) that mines the top-k topological representative subgraphs among the frequent ones. Keywords: Feature selection, topological representative subgraphs, fre- quent subgraphs, graph databases JFGG - 5