TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

La classification automatique de données quantitatives

Une méthode d apprentissage pour la composition de services web

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Application de K-means à la définition du nombre de VM optimal dans un cloud

Introduction au Data-Mining

Introduction au Data-Mining

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Laboratoire 4 Développement d un système intelligent

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Laboratoire d Automatique et Productique Université de Batna, Algérie

Exemple PLS avec SAS

Hervé Couturier EVP, SAP Technology Development

Introduction au datamining

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Intégration de la dimension sémantique dans les réseaux sociaux

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Entreposage de données complexes pour la médecine d anticipation personnalisée

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Principe de symétrisation pour la construction d un test adaptatif

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

NON-LINEARITE ET RESEAUX NEURONAUX

Vers une Optimisation de l Algorithme AntTreeStoch

AGROBASE : un système de gestion de données expérimentales

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Classification Automatique de messages : une approche hybride

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

Analyse de grandes bases de données en santé

INSERTION TECHNIQUES FOR JOB SHOP SCHEDULING

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Photoactivatable Probes for Protein Labeling

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Spécificités, Applications et Outils

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Etude d Algorithmes Parallèles de Data Mining

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Détection d utilisateurs malveillants dans les réseaux sociaux

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Apprentissage Automatique

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

Forthcoming Database

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Préparer un état de l art

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Codage vidéo par block matching adaptatif

BIG Data et R: opportunités et perspectives

Services à la recherche: Data Management et HPC *

Encryptions, compression et partitionnement des données

données en connaissance et en actions?

Sélection de Caractéristiques pour le Filtrage de Spams

Contents Windows

THESE DE DOCTORAT. Informatique, Fouille de données

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Enrichissement du profil utilisateur à partir de son réseau social dans un contexte dynamique : application d une méthode de pondération temporelle

Differential Synchronization

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

RI sociale : intégration de propriétés sociales dans un modèle de recherche

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Gestion obligataire passive

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

République Algérienne Démocratique et Populaire

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Data issues in species monitoring: where are the traps?

Pourquoi l apprentissage?

Évaluation d une architecture de stockage RDF distribuée

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Data Mining. Master 1 Informatique - Mathématiques UAG

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Les Portfolios et Moodle Petit inventaire

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Amélioration des indicateurs techniques pour l analyse du marché financier

DOCUMENTATION - FRANCAIS... 2

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

Propriétés du Document EMA. Résumé

Practice Direction. Class Proceedings

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Algorithmes de recommandation, Cours Master 2, février 2011

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Apprentissage statistique dans les graphes et les réseaux sociaux

Transcription:

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba, Tunisie sami.zghal@planet.tn LIMOS, Université Blaise Pascal, BP 10448, 63000, Clermont-Ferrand, FRANCE {mohamed.moussaoui.com,wajdidhifli,nguifo.mephu}@gmail.com Résumé. Avec l émergence de bases de graphes, la découverte des sous-graphes fréquents est largement traitée. L extraction des sous-graphes fréquents est utile dans la plupart des tâches de découverte des connaissances, telles que la classification, le regroupement (clustering), l indexation, etc. Cependant, leur utilisation dans la vie réelle est beaucoup plus faible par rapport à leur potentiel. La principale raison est le manque d intelligibilité causée par le très grand nombre des sous-graphes fréquents découverts, ce qui peut gêner une tâche plus approfondie. Alors, il y a un besoin éventuel de sélectionner un petit ensemble de sous-graphes pertinents. Dans ce travail, nous proposons une nouvelle approche nommée TRS (Topological Representative Subgraphs) qui permet de sélectionner des top-k sous-graphes représentants parmi les sous-graphes fréquents en se basant sur un ensemble d attributs topologiques. Mots clefs: Sélection des sous-graphes, sous-graphe représentant, sous-graphe fréquent, base de graphes 1 Introduction Les graphes sont fréquemment utilisés dans la modélisation des structures complexes, tels que les réseaux sociaux, les composants chimiques et les protéines. Une des façons utilisées pour décrire un graphe est d extraire l ensemble des sous-graphes fréquents qui se produisent fréquemment dans un ensemble de graphes. Cependant, leur utilisation dans la vie réelle est beaucoup plus faible par rapport à leur potentiel grâce au nombre exponentiel de sous-graphes fréquents extraits. Par exemple, un ensemble de graphe de taille moyenne peut produire des millions de motifs fréquents avec une valeur de support raisonnable. Ces dernières années, les chercheurs ont ressenti le besoin de sélectionner l ensemble de sous-graphes fréquents extraits, de sorte que cette sélection doit être petite, non redondante et discriminante. Dans la littérature, il existe plusieurs techniques de fouille de données qui traitent le problème de l explosion du nombre de sous-graphes fréquents extraits [6] [1] [3] [4]. Cependant, le nombre de sous-graphes sélectionnés est encore élevé. Comme la plupart des sous-graphes fréquents diffèrent légèrement dans leur structure. De nombreuses approches de sélection des sous-graphes ont été proposées sur la base de la similarité structurelle exacte ou approximative. Ces approches consistent à tester la similarité structurelle des graphes en établissant une correspondance entre eux. Nous croyons que cette stratégie de détection de similarité n est pas assez efficace avec plusieurs applications réelles. D une part, afin de trouver une correspondance possible entre les deux graphes, nous devons vérifier tous les noeuds et les arêtes dans les deux graphes pour chaque itération possible jusqu à une correspondance structurelle trouvée ou une itération n est plus possible, cela entraîne un calcul très coûteux. D autre part, la détection des similarités structurelles soit d une manière exacte ou approximative ne sont pas suffisamment efficaces pour obtenir tous les sous-graphes similaires puisque les données sont souvent bruyantes. Par conséquent, la similarité structurelle exacte ne permet pas une détection légère des différents sousgraphes similaires, et la similitude structurelle approximative a toujours un problème du réglage de seuil. Cela pose la nécessité d une autre façon pour détecter la similarité structurelle d une perspective différente qui permet d avoir des similitudes structurelles. Par ailleurs, un utilisateur peut être intéressé par un ou quelques propriétés structurelles spécifiques selon le contexte de l application. Toutefois, la similarité structurelle exacte ou approximative ne permet pas cette spécificité. 2 Top-k sous-graphes représentants Nous présentons une solution qui réduit le nombre exponentiel des sous-graphes fréquents extraits par la sélection d un sousensemble représentant et pertinent. Pour que la tâche de découverte des connaissances devient plus abordable, notre approche est basée sur un ensemble d attributs topologiques. La première étape consiste à extraire un ensemble de sous-graphes fréquents à partir d une base de graphes. Dans la deuxième étape, les valeurs de l ensemble d attributs topologiques sont calculées pour chaque sous-graphe fréquent extrait. Dans cette étape, un vecteur caractéristique (attributs topologiques) est construit pour chaque sous-graphe fréquent. La troisième étape consiste à utiliser K-medoïdes comme une méthode de partitionnement de données dans le but d obtenir les centroïdes des groupes (clusters). Ces centroïdes sont considérés comme des représentants de données mis dans le même groupe. Ces représentants nous permettront par la suite à découvrir des connaissances d une manière simple, rapide et pratique.

TRS 2.1 Attributs topologiques Nous adoptons un cadre de sélection qui consiste à extraire un sous-graphe représentant de chaque ensemble de sous-graphes structurellement similaires. Par conséquence, nous créons un vecteur caractéristique pour chaque sous-graphe contenant les valeurs correspondantes pour un ensemble d attributs topologiques comme le degré moyen, la densité, le coefficient de clustering moyen, etc. Ces attributs sont des paramètres structuraux qui permettent de décrire des graphes complexes. Nous avons sélectionné un ensemble d attributs topologiques de la littérature qui sont très intéressants et efficaces pour décrire les données du graphe. 2.2 Algorithme Nous proposons l algorithme TRS qui permet de sélectionner k sous-graphes représentants en se basant sur 17 attributs topologiques. Le processus général de l algorithme TRS est décrit comme nous montre l algorithme 1. Tout d abord, une extraction des sous-graphes fréquents qui ont une fréquence supérieure ou égale à un taux fixé a priori à partir d une base de graphes D. Ensuite, un calcul des valeurs d attributs topologiques pour chaque sous-graphe fréquent afin de remplir une matrice d attributs dans le but de créer des vecteurs caractéristiques. Puis, une procédure de partitionnement de données est effectuée en identifiant le nombre de groupes k. Finalement, cette procédure donne comme sortie un k sous-graphes représentants. Algorithme 1: TRS Données : D : Une base de graphes, k : Nombre de groupes, τ : Fréquence minimale Résultat : Un ensemble de sous-graphes représentants Ω 1 début 2 Ω Extraction des sous-graphes fréquents τ 3 m Matrice vide 4 pour chaque sous-graphe fréquent j Ω faire 5 v Calculer les valeurs des attributs topologiques pour j 6 m m v 7 fin pour 8 Regroupement_kmedoïdes(k, m) 9 Ω recuperer_medoïdes(ω) 10 Fin 2.3 Approche naïve L approche naïve consiste d abord à créer la matrice de contexte où chaque sous-graphe est représenté par un vecteur contenant des valeurs binaires correspondant à l absence (0) ou la présence (1) des sous-graphes considérés dans chaque instance de la base comme nous montre l algorithme 2. La différence entre TRS et l approche naïve réside au niveau de la matrice utilisée pour décrire les sous-graphes utilisés ultérieurement pour le clustering k-medoïdes. Algorithme 2: APPROCHE NAÏVE Données : Ensemble de sous-graphes fréquents Ω, nombre de représentants k Résultat : Ensemble de sous-graphes représentants Ω = {g 1, g 2,..., g k } 1 début 2 M Ω i=1 V i : chaque sous-graphe g Ω est codé par un vecteur binaire V contenant des valeurs binaires correspondant à l absence (0) ou la présence (1) des sous-graphes considérés dans chaque instance de la base; 3 Ω Regroupement(Ω, k); 4 Fin 3 Étude expérimentale 3.1 Données expérimentales Afin de réaliser notre étude expérimentale et pouvoir détecter les forces et les faiblesses de TRS, nous avons sélectionné cinq échantillons de la littérature, dont nous utilisons deux échantillons de structures protéiques, deux autres échantillons de données biologiques et un ensemble de données synthétique. Nous avons extrait les sous-graphes fréquents pour chaque échantillon de données à l aide de gspan [5]. JFGG - 2

M.Moussaoui et al. 3.2 Résultats et interprétations 3.2.1 Évaluation de la qualité des sous-graphes sélectionnés Dans l objectif de mesurer la performance de notre méthode de sélection, nous utilisons le gain d information comme une métrique d évaluation. Selon [2] le gain d information mesure la quantité de l information concernant la prédiction d une classe. Protéines G Domaine protéique C1 # représentants AN TRS AN TRS 200 0.096 0.343 0.044 0.273 400 0.094 0.339 0.051 0.276 600 0.096 0.340 0.054 0.267 800 0.098 0.352 0.054 0.274 1000 0.094 0.353 0.056 0.276 FSG 0.216 0.148 TAB. 1 Comparaison de gain d information moyen des graphes représentatifs topologiques (TRS) avec ceux sélectionnés par l approche naïve (AN) et l ensemble initial de tous les sous-graphes fréquents (FSG). D après le table 1, on remarque qu en se basant sur le gain d information que TRS est capable de sélectionner un ensemble de sous-graphes largement plus pertinents et plus informatifs que l approche naïve et que l ensemble initial de sous-graphes fréquents. Cela montre l importance la fiabilité de notre approche est que la description basée sur les attributs topologiques permet de mettre l accent sur des propriétés et des relations entre les sous-graphes qui sont ignorées par l approche naïve qui sont cachées ou non-représentées dans l ensemble initial des sous-graphes fréquents. 3.2.2 Temps d exécution Dans cette section, nous présentons la différence entre le temps d exécution du regroupement pris par TRS et celui pris par l approche naïve. Pour effectuer cette tâche, nous avons utilisé l échantillon de données Sida. La figure 1 présente l évolution du temps d exécution obtenu avec les différentes valeurs de k. FIG. 1 Comparaison de temps d exécution du regropement entre l approche proposée et l approche naïve D après cette figure, nous observons dans un premier lieu que le temps d exécution augmente avec les deux approches quand le nombre de medoïdes accroît. Dans un deuxième lieu, nous constatons que le temps d exécution du regroupement avec l approche naïve est très élevé par rapport au temps d exécution du regroupement de notre approche qui prend seulement quelques secondes. Cela montre l efficacité de l approche proposée en terme de temps. Cette réduction de temps d exécution revient à la diminution du nombre d attributs de matrice utilisés par TRS dans le processus du regroupement, ils sont déjà fixés à 17 attributs (le nombre d attributs topologiques utilisés dans ce travail). Au contraire, le processus du regroupement de l approche naïve utilise un nombre d attributs égal au nombre de graphes qui peut être élevé comme le cas de l échantillon de données Sida. 3.2.3 Scalabilité Dans cette section, nous traitons la capacité de TRS à s adapter à l augmentation du volume de données. La génération de l ensemble de graphes synthétiques est effectuée sur deux étapes principales : 1. la première étape consiste à augmenter le nombre de sous-graphes de 10000 à 100000 alors que le nombre de graphes est fixé à 82. 2. la deuxième étape consiste à augmenter le nombre de graphes de 1000 à 10000 et le nombre de sous-graphes reste fixe à 10000. JFGG - 3

TRS FIG. 2 Temps d exécution du regroupement avec la variation du nombre de sous-graphes FIG. 3 Temps d exécution du regroupement avec la variation du nombre de graphes D après la figure 2, on peut constater une augmentation du temps d exécution du regroupement avec les deux approches. Cependant, le temps d exécution pris par notre approche est moins élevé que le temps d exécution pris par l approche naïve. Ainsi, on peut constater dans la figure 3 que le temps d exécution du regroupement de notre approche reste toujours stable avec les différentes valeurs de graphes. Au contraire, nous observons une augmentation remarquable sur le temps d exécution du regroupement pris par l approche naïve. Cela signifie que TRS n est pas influencée par le nombre élevé de graphes. Ce qui indique la capacité de notre approche à s adapter à l augmentation du volume de données. 4 Conclusion Nous avons proposé une nouvelle approche pour sélectionner k sous-graphes représentants en se basant sur un ensemble d attributs topologiques. Au lieu de sélection des sous-graphes de structure exacte ou approximative notre approche suit une stratégie de sélection plus significative, qui contribue à la fois sur la sélection d un sous-ensemble des représentants topologiquement non-redondants et informatifs, et de détecter de nombreuses similarités structurelles que les approches existantes ne parviennent pas à détecter en se basant sur des propriétés topologiques cachées (densité, coefficient de clustering moyen, etc.). Pour notre contribution, les résultats expérimentaux confirment l efficacité de notre méthode pour sélectionner un petit nombre de sous-graphes pertinents, non-redondants et informatifs d une manière rapide. L étude expérimentale a prouvé la capacité de notre approche à s adapter à l augmentation du volume de données. Bibliographie Références [1] Vineet Chaoji, Mohammad Al Hasan, Saeed Salem, Jeremy Besson, and Mohammed J. Zaki. Origami : A novel and effective approach for mining representative orthogonal graph patterns. Stat. Anal. Data Min., 1(2) :67 84, June 2008. [2] Hui Jiang and Wenwu He. A pattern search method for model selection of support vector regression. In In Proceedings of the SIAM International Conference on Data Mining. SIAM, 2002. [3] Yuhua Li, Quan Lin, Ruixuan Li, and Dongsheng Duan. Tgp : mining top-k frequent closed graph pattern without minimum support. In Proceedings of the 6th international conference on Advanced data mining and applications : Part I, ADMA 10, pages 537 548, Berlin, Heidelberg, 2010. Springer-Verlag. [4] Marisa Thoma, Hong Cheng, Arthur Gretton, Jiawei Han, Hans-Peter Kriegel, Alex Smola, Le Song, Philip S. Yu, Xifeng Yan, and Karsten M. Borgwardt. Discriminative frequent subgraph mining with optimality guarantees. Statistical Analysis and Data Mining, 3(5) :302 318, 2010. [5] Xifeng Yan and Jiawei Han. gspan : Graph-based substructure pattern mining. In Proceedings of the 2002 IEEE International Conference on Data Mining, ICDM 02, pages 721, Washington, DC, USA, 2002. IEEE Computer Society. [6] Shijie Zhang, Jiong Yang, and Shirong Li. Ring : An integrated method for frequent representative subgraph mining. In Data Mining, 2009. ICDM 09. Ninth IEEE International Conference on, pages 1082 1087, dec. 2009. JFGG - 4

M.Moussaoui et al. Summary With the emergence of graph databases, the task of frequent subgraph discovery has been extensively addressed. Mining frequent subgraphs is useful in most knowledge discovery tasks such as classification, clustering, indexing. However, their use in real life is much lower compared to their potential. The main reason is the lack of intelligibility caused by the large number of frequent subgraphs discovered, which can hinder further task. So there is a potential need to select a small set of relevant subgraphs. We propose a novel approach named TRS (Topological Representative Subgraphs) that mines the top-k topological representative subgraphs among the frequent ones. Keywords: Feature selection, topological representative subgraphs, fre- quent subgraphs, graph databases JFGG - 5