THESE DE DOCTORAT. Informatique, Fouille de données



Documents pareils
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Big Data et Graphes : Quelques pistes de recherche

Application de K-means à la définition du nombre de VM optimal dans un cloud

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Big Data et Graphes : Quelques pistes de recherche

CURRICULUM VITAE. Informations Personnelles

FaceBook aime les Maths!

Laboratoire 4 Développement d un système intelligent

Jean-François Boulicaut & Mohand-Saïd Hacid

Apprentissage Automatique

RI sociale : intégration de propriétés sociales dans un modèle de recherche

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Voisinage et intrication dans les réseaux multiplexes

Enrichissement du profil utilisateur à partir de son réseau social dans un contexte dynamique : application d une méthode de pondération temporelle

Analyse des réseaux sociaux

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Apprentissage statistique dans les graphes et les réseaux sociaux

Propriétés du Document EMA. Résumé

L hypertexte, le multimédia, c est quoi?

Data Mining. Master 1 Informatique - Mathématiques UAG

Implémentation Matérielle des Services d un RTOS sur Circuit Reconfigurable

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Détection d utilisateurs malveillants dans les réseaux sociaux

Introduction au Data-Mining

BIG Data et R: opportunités et perspectives

Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association

DR. MATHIEU LAJANTE. Maître de Conférences en Marketing. Fonctions. Formations universitaires. Responsabilités administratives

Infrastructure PLM pour la capitalisation et la réutilisation de données en conception mécanique

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Pourquoi l apprentissage?

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Spécificités, Applications et Outils

Enjeux mathématiques et Statistiques du Big Data

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Offre de thèse. Co-encadrant de thèse : HENRY Sébastien Coordonnées électroniques : Sébastien.Henry@univ-lyon1.fr Laboratoire : DISP (

Une méthode d apprentissage pour la composition de services web

Introduction au datamining

Ne cherchez plus, soyez informés! Robert van Kommer

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

L animation de la performance d une Supply Chain

Hervé Couturier EVP, SAP Technology Development

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Ingénierie et gestion des connaissances

Clustering par optimisation de la modularité pour trajectoires d objets mobiles

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Formula Negator, Outil de négation de formule.

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Change the game with smart innovation

Laboratoire d Automatique et Productique Université de Batna, Algérie

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Master Informatique Aix-Marseille Université

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Maîtrise énergétique des centres de données

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Article de recherche théorique et article de recherche empirique : particularités 1

Vers une Optimisation de l Algorithme AntTreeStoch

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

ISTEX, vers des services innovants d accès à la connaissance

IC2. Interaction, Cognition and Complexity Département INFRES. Talel Abdessalem. Institut Mines-Télécom

Publications, ressources, liens, logiciels,

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

AGROBASE : un système de gestion de données expérimentales

Les datas = le fuel du 21ième sicècle

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

MASTER ECONOMIE APPLIQUEE

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

Présentation de la majeure ISN. ESILV - 18 avril 2013

Introduction au Data-Mining

Les défis statistiques du Big Data

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Frank LASCK. Courriel : f.lasch@montpellier-bs.com Fonction : Professeur. Biographie

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Christian BONTEMPS né le 08 juillet 1969

MABioVis. Bio-informatique et la

Innovation Francophonie Imagination

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Classification Automatique de messages : une approche hybride

MAITRE DE CONFERENCES EN GEOGRAPHIE, AMENAGEMENT DE L ESPACE ET URBANISME Université Paris IV - Sorbonne. estelle.ducom@paris-sorbonne.

Appel à Projet PME 2014

Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration

Analyse,, Conception des Systèmes Informatiques

Analyse des réseaux : Une introduction à Pajek

Réunion du cluster Habitat Bâtiment Intelligent (HBI) 17 Mars 2014 L I NTELLIGENCE ENERGÉTIQUE

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Transcription:

THESE DE DOCTORAT Informatique, Fouille de données THEME PRINCIPAL DE LA SOUMISSION : Contenus, Connaissances, Interactions TITRE DE LA THESE : Fouille de graphes avec attributs RESPONSABLES DE LA THESE : Cécile BOTHOREL, Philippe LENCA (Telecom Bretagne/Lab-Sticc, UMR CNRS 6285, Brest) Co-encadrement : Christine LARGERON (Université Jean Monnet/Laboratoire Hubert Curien, UMR CNRS 5516, Saint-Etienne) ECOLE DE RATTACHEMENT : Telecom Bretagne EQUIPES D ACCUEIL : Lab-STICC/DECIDE à Telecom Bretagne (70%), Laboratoire Hubert Curien (30%) DOCTORANT : pas encore de candidat à ce jour MOTS CLES : Fouille de données, clustering, mesures de distance, mesure de qualité, définition de communautés RESUME : La communauté en fouille de médias sociaux s intéresse à la dynamique des réseaux, à la diffusion d information, au passage à l échelle, et très récemment à l exploitation de la richesse des données. C est ce dernier axe que nous proposons d approfondir, en considérant en plus des relations sociales, les informations contextuelles qui peuvent être rattachées aux noeuds comme aux arcs des graphes représentant les réseaux sociaux. Des travaux en data mining ont cherché à fouiller des graphes avec attributs, introduits en 2009, en adressant des problématiques telles que la détection de communautés. On peut recenser différentes techniques pour combiner les deux types de données : modification de poids en fonction des attributs caractérisant les noeuds, combinaison linéaire des dimensions liées aux relations et aux attributs, marches aléatoires, subspace clustering, etc. Depuis 2010, nos travaux ont porté notamment sur les deux premières approches mentionnées ci-dessus. Mais force est de constater que les propositions réutilisent et adaptent les techniques existantes pour graphe simple avec plus ou moins de justification et sans faire émerger de consensus. Il nous paraît important de revenir sur les notions fondamentales sous-jacentes à la conception de méthodes adaptées aux graphes avec attributs. L objectif est donc de revisiter les mesures de distance entre éléments, d agrégation entre sous-ensembles d éléments ou encore de qualité d un partitionnement, d en comprendre les propriétés et ainsi de conduire à de nouvelles définitions des communautés et à des méthodes de fouille adaptées faisant sens. Cette thèse en co-encadrement a l ambition de revêtir un caractère de référence et réunit deux équipes nationales en avance sur le sujet. Résolument de nature formelle, son objectif est d éprouver les mesures et les algorithmes fondamentaux de l analyse de réseaux avec informations contextuelles, tout en tenant compte d objectifs utilisateur. Ce travail permettra ainsi également de construire des partenariats applicatifs en confiance. 1

1 Contexte Scientifique Les années 2000 ont été marquées par l explosion des réseaux sociaux sur Internet, renouvelant l intérêt de la communauté scientifique non seulement en sciences sociales mais aussi en informatique pour l analyse et la fouille de graphes. Aujourd hui, les graphes utilisés pour étudier ces réseaux sont de très grande taille tant par le nombre de noeuds associés aux individus que par celui des arêtes qui décrivent leurs relations ou leurs interactions [12]. De plus, les relations entre ces noeuds sont le plus souvent multiples [11]. Enfin, des informations contextuelles peuvent être rattachées aux noeuds comme aux arcs. Comme l a souligné l étude de Gartner, les besoins d analyse ont également évolué, requérant le développement d algorithmes et d outils plus puissants mais aussi capables d intégrer des informations contextuelles associées aux noeuds ou aux arcs et de prendre en compte la dimension temporelle pour suivre l évolution d un réseau [10]. Ainsi, [9] s intéresse à la propagation d épidémies et montre que pour en arrêter la diffusion, il s agit de trouver des groupes d individus démontrant à la fois un tissu relationnel dense et des caractéristiques de population à risque. Identifier des groupes seulement denses, ou bien des groupes seulement à risque est beaucoup moins efficace, et ces travaux invitent donc à considérer les caractéristiques des noeuds dans un réseau dans un processus de fouille intégré. De la même manière, en emarketing, dans le cadre de la Chaire Réseaux Sociaux de l IMT, nous avons commencé à travailler sur la détection de communautés sociales et thématiques pour cartographier les blogs de cuisine et identifier les acteurs influents inter- ou mono-thématiques [15]. Ces premiers travaux montrent l intérêt de telles extractions de connaissances et le potentiel en termes applicatifs mais ils font aussi remonter le manque d indicateurs et de mesures objectives décrivant les connaissances extraites. Un nouveau champ de recherche en fouille de données s est donc développé autour des réseaux sociaux. Cependant des benchmarking des outils existants, comme nos propres études, ont montré que ceux-ci couvraient très partiellement ces nouveaux besoins [8, 7]. Concernant la recherche de communautés, ou clustering, des travaux proposent de réutiliser les algorithmes classiques de recherche de zones denses tels que le célèbre algorithme de Louvain [13] qui maximise la modularité [26]. Cette famille de méthodes encode l information de similarité des noeuds sur les arêtes avant d appliquer ces algorithmes sur les graphes modifiés [25, 27, 17, 18]. De manière orthogonale, d autres méthodes utilisent des combinaisons linéaires des dimensions relationnelles et des dimensions liées aux attributs avant d appliquer des méthodes de clustering classiques [14, 19, 22, 28]. Par ailleurs, nous pouvons citer [32, 20] qui explorent une méthode de marche aléatoire contraignant les déplacements dans un graphe selon la présence d attributs communs sur les noeuds ou encore des méthodes qui combinent le subspace et le subgraph clustering telles que [21] pour optimiser la sélection de sousensembles d attributs et de relations visant à satisfaire des métriques de qualité dans un espace de projection. Enfin, [16] modifie l algorithme de Louvain pour localement optimiser l entropie en plus de la modularité. Toutes ces méthodes vont d une manière plus ou moins intégrée chercher à optimiser la similarité en terme d attributs et de relations des noeuds au sein d un même cluster, en combinant deux fonctions objectif mais, sans définir clairement les clusters recherchés. Les clusters identifiés sont ensuite validés, d une part, pour la dimension contextuelle des attributs en terme d entropie, et d autre part, pour la dimension relationnelle en terme de densité et de modularité bien que cette dernière présente un certain nombre de limites [6]. Toutefois, sans définition claire d un cluster, ces mesures ne font que quantifier des propriétés des clusters relatives à des dimensions très différentes et non intégrées. Si une vérité terrain (clustering ground-truth) est disponible, la question de la validation est alors simplifiée, et les matrices de contingence ou encore l information mutuelle peuvent etre utilisées [14, 31]. Malheureusement, s il existe des 2

benchmarks contenant des jeux de données classiques avec vérité terrain, comme par exemple [5], utilisables pour valider les méthodes de détection de communautés, il n existe pas encore d équivalent en matière de graphes à attributs. Il commence cependant à exister quelques rares jeux de données réelles (DBLP, Gowalla, Wikipédia et tout récemment Google+). Cette revue de la littérature du clustering de graphes avec attributs montre qu il n y pas encore de consensus de la définition des clusters recherchés, que les fonctions objectifs sont diverses et variées, et que les mesures de qualité des clusters obtenues ne sont pas satisfaisantes. Ce sont ces verrous que nous nous proposons de traiter dans cette thèse. 2 Contenu Scientifique Ce projet de thèse vise à exploiter les informations de nature contextuelle liées aux acteurs d un réseau social afin d enrichir l analyse et la fouille des réseaux sociaux. Le premier objectif est de cartographier de manière exhaustive les travaux de clustering de graphes avec attributs, en puisant dans les communautés d analyse de graphes mais aussi dans la communauté du clustering plus classique. Nous proposons via ce travail de balayer les modèles, les approches, les algorithmes, les fonctions objectif, les métriques d évaluation ; de procéder à des évaluations exhaustives et d identifier les situations qui disposent de techniques performantes et celles qui nécessitent une recherche. Les situations seront décrites par les applications potentielles mais aussi par la forme des données, i.e. la forme des graphes, la dimension des attributs, la distribution des attributs, et les techniques seront caractérisées par leur montée en charge, la robustesse à l ordre de traitement des noeuds, attributs, relations, etc. Les approches inventoriées seront confrontées à des données synthétiques et des jeux de données réelles. Un tel état de l art, qui en soit est une contribution nécessaire au domaine, nous offrira les fondations pour aboutir à la conception de mesures adaptées aux graphes attributs. Nous envisageons deux axes dans cette recherche de mesures. Le premier axe concerne l analyse classique de réseaux sociaux qui cherche à caractériser la position d un acteur (i.e. sommet du graphe) ou le réseau global, mais aussi à établir des comparaisons entre deux réseaux grâce à des indicateurs basés par exemple sur le nombre de degrés des sommets, le diamètre ou encore le nombre d intermédiaires entre deux sommets du graphe [3, 4, 1, 2, 29]. Nous proposons d étendre ces mesures en tenant compte non seulement des liens existants entre les acteurs et décrits par le graphe mais aussi de leurs caractéristiques. Nous mettrons aussi l accent sur la conception de nouvelles définitions des distances, des clusters, des mesures de qualité que nous utiliserons pour revisiter des tâches classiques de clustering dans le cas de graphes avec attributs. Ce deuxième axe est un peu plus risqué car la validation en apprentissage non supervisé est un problème non trivial comme nous l avons indiqué dans l état de l art. Nous utiliserons des jeux de données synthétiques permettant d éprouver les propriétés des mesures de l état de l art et proposées, mais nous chercherons également à valider nos contributions sur des jeux de données académiques (DPLB, Wikipédia, Google+, etc.). A noter qu il existe des travaux récents [30] qui utilisent le concept de listes, explicitées par les utilisateurs eux-mêmes, comme clusters "ground-truth" dans des données issues de Twitter. Ce projet sera mené en s appuyant sur les compétences en apprentissage automatique et en fouille de données de chercheurs en informatique de l équipe Lab-Sticc à Telecom Bretagne (UMR CNRS 6285) et du Laboratoire Hubert Curien (UMR CNRS 5516). Il s inscrit dans la con- 3

tinuité de travaux en informatique menés au sein de ces laboratoires. Une précédente thèse financée par le programme Futur & Rupture (prix de la fondation 2013) et encadrée par Cécile Bothorel a défriché l étude du clustering de graphes avec attributs et a mis en évidence l intérêt de travailler plus profondément sur la définition des communautés et des mesures (fonctions objectifs et validation). D autre part, les travaux précédents de Christine Largeron rattachés à l axe "Fouille et recherche à partir de données structurées" du LHC ont d ores et déjà donné lieu à deux thèses sur cette thématique (Allocation de la Région Rhône-Alpes 2009 et ANR 2010). Enfin, les travaux de Philippe Lenca font maintenant référence sur les mesures de qualité pour la recherche de règles d association, et nous envisageons d utiliser la même méthodologie, applicable à notre projet et qui permettra d adresser le verrou de l adéquation des mesures avec les objectifs de fouille recherchés. Après l étude exhaustive des mesures existantes, nous mettrons en avant leurs propriétés algorithmiques (cf. mesure de la qualité des règles d association extraites [24]). Puis une fois ces mesures bien comprises, et une fois les clusters découverts caractérisés, nous chercherons à les intégrer dans le processus de fouille (cf. remplacement de la mesure de support bien connue par de nouvelles mesures en lien avec le contexte d application au cours du processus de production des règles [23]). La thèse débouchera sur des algorithmes et leur implémentation. Bien que l aspect montée en charge pour analyser de très grands graphes ne soient pas la priorité, nous travaillons d ores et déjà sous une architecture Big Data (Hadoop, Mahout, Hive, neo4j, etc.) pour tester nos développements sur des jeux de données tels que Wikipédia, Gowalla ou encore Google+. Les axes de travail ainsi que la méthodologie annoncée permettront d aboutir aux contributions suivantes : un état de l art exhaustif avec comparaison des mesures et algorithmes existants sur des données de benchmarking ; la définition et la caractérisation de mesures de distance entre éléments, d agrégation entre sous-ensembles d éléments et de qualité d un partitionnement ; la définition de communautés dédiées aux graphes avec attributs. Ces fondamentaux de la fouille de données nous permettront d aller bien au-delà de l état de l art, qui reste à l heure actuelle, un assemblage plus ou moins justifié de techniques détournées et non formalisées. Références [1] J. Scott Social Network Analysis A Handbook. 2nd Ed. Newberry Park, CA : Sage (2000) [2] P. Carrington, J. Scott and S. Wasserman Models and Methods in Social Network Analysis New York : Cambridge University Press (2005). [3] A. Degenne, M. Forsé Les réseaux sociaux Paris, Armand Colin (1994). [4] L.C. Freeman. Centrality in social networks conceptual clarification. Social networks, 1(3) :215-239, 1979. [5] Zachary W. (1977). An information flow model for conflict and fission in small groups. Journal of Anthropological Research, 33, 452-473. [6] A. Lancichinetti, S. Fortunato Limits of modularity maximization in community detection Phys. Rev. E 84, 066122, 2011 [7] D. Combe, C. Largeron, E. Egyed-Zsigmond, M. Géry A comparative study of social network analysis tools Workshop "Web intelligence and Virtual Entreprise" at the International Conference PROVE, (2010). [8] M. Huisman, M. Van Duijn, A. J. Marijtje Software for social network analysis, A reader s guide to SNA software. In J. Scott and P.J. Carrington (Eds.) The SAGE Handbook of Social Network Analysis (pp. 578-600) (2004). [9] B. Aditya Prakash, Jilles Vreeken, Christos Faloutsos Efficiently spotting the starting points of an epidemic in a large graph. Knowl. Inf. Syst. 38(1) : 35-59 (2014) [10] Gartner Hype Cycle for social software G00158239 (2008). [11] J. Mori, T Tsujisshita, Y. Matsuo, M. Ishizuka Extracting relations in social networks from the web using similarity between collective contexts. Proceedings of the 5th International Semantic Web Conference (ISWC 2006). Vol 4273, 487-500 (2006) [12] V. Batagelj Social Network Analysis, Large-Scale. R.A. Meyers, ed., Encyclopedia of Complexity and Systems Science, Springer, 8245-8265 (2009). [13] Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte, and Etienne Lefebvre. Fast unfolding of communities in large networks. Journal of Statistical Mechanics : Theory and Experiment, 2008(10) :P10008 (12pp), October 2008. [14] David Combe, Christine Largeron, Előd Egyed-Zsigmond, and Mathias Géry. Combining relations and text in scientific network clustering. In 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, pages 1280 1285, Istanbul, Turquie, 2012. 4

[15] Damien Renard, Juan David Cruz, Christine Balagué and Cécile Bothorel. Detection of communities : the case of cooking bloggers. Submitted to Marketing Science, Special Issue on Big Data : Integrating Marketing, Statistics, and Computer Science, 2014. [16] Juan David Cruz, Cécile Bothorel, and François Poulet. Entropy based community detection in augmented social networks. In Computational Aspects of Social Networks (CASoN 2011), 2011 International Conference on Computational Aspects of Social Networks, pages 163 168, 2011. [17] Juan David Cruz, Cécile Bothorel, and François Poulet. Semantic clustering of social networks using points of view. In CORIA : conférence en recherche d information et applications 2011, 2011. [18] Juan David Cruz, Cécile Bothorel, and François Poulet. Détection et visualisation des communautés dans les réseaux sociaux. Revue d Intelligence Artificielle, 26(4) : 369 392, 2012. [19] The Anh Dang and Emmanuel Viennet. Community detection based on structural and attribute similarities. In International Conference on Digital Society (ICDS), pages 7 14, 2012. ISBN : 978-1-61208-176-2. [20] Rong Ge, Martin Ester, Byron J. Gao, Zengjian Hu, Binay Bhattacharya, and Boaz Ben-Moshe. Joint cluster analysis of attribute data and relationship data : The connected k-center problem, algorithms and applications. ACM Trans. Knowl. Discov. Data, 2(2) :7 :1 7 :35, July 2008. [21] Stephan Günnemann, Brigitte Boden, Ines Färber, and Thomas Seidl. Efficient mining of combined subspace and subgraph clusters in graphs with feature vectors. In Advances in Knowledge Discovery and Data Mining, pages 261 275. Springer, 2013. [22] Daniel Hanisch, Alexander Zien, Ralf Zimmer, and Thomas Lengauer. Co-clustering of biological networks and gene expression data. Bioinformatics, 18(suppl 1) :S145 S154, 2002. [23] Yannick Le Bras, Philippe Lenca, and Stéphane Lallich. Optimonotone measures for optimal rule discovery. Computational Intelligence, 28(4) :475 504, 2012. [24] Philippe Lenca, Patrick Meyer, Benoît Vaillant, and Stéphane Lallich. On selecting interestingness measures for association rules : User oriented description and multiple criteria decision aid. European Journal of Operational Research, 184(2) :610 626, 2008. [25] Jennifer Neville, Micah Adler, and David D. Jensen. Clustering relational data using attribute and link information. In Proceedings of the Workshop on Text Mining and Link Analysis, Eighteenth International Joint Conference on Artificial Intelligence, Acapulco, Mexico, 2003. [26] M. E. J. Newman and M. Girvan. Finding and evaluating community structure in networks. Physical Review E, 69(2) :026113+, February 2004. [27] Karsten Steinhaeuser and NiteshV. Chawla. Community detection in a large real-world social network. In Huan Liu, JohnJ. Salerno, and MichaelJ. Young, editors, Social Computing, Behavioral Modeling, and Prediction, pages 168 175. Springer US, 2008. [28] Nathalie Villa-Vialaneix, Madalina Olteanu, and Christine Cierco-Ayrolles. Carte auto-organisatrice pour graphes étiquetés. In Atelier Fouilles de Grands Graphes (FGG) - EGC 2013, page Article numéro 4, Toulouse, France, 2013. [29] Stanley Wasserman and Katherine Faust. Social Network Analysis : Methods and Applications. Number 8 in Structural Analysis in the Social Science. Cambridge University Press, 1994. [30] J. Yang, J. McAuley, and J. Leskovec. Community Detection in Networks with Node Attributes. arxiv preprint arxiv :1401.7267, Published in the proceedings of IEEE ICDM 13, January 2014. [31] Tianbao Yang, Rong Jin, Yun Chi, and Shenghuo Zhu. Combining link and content for community detection : a discriminative approach. In KDD 09 : Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 927 936, New York, NY, USA, 2009. ACM. [32] Yang Zhou, Hong Cheng, and Jeffrey Xu Yu. Graph clustering based on structural/attribute similarities. Proc. VLDB Endow., 2(1) :718 729, August 2009. 5