Empreintes conceptuelles et spatiales pour la caractérisation des réseaux sociaux



Documents pareils
Hervé Couturier EVP, SAP Technology Development

CURRICULUM VITAE. Informations Personnelles

Resolution limit in community detection

Propriétés du Document EMA. Résumé

Application de K-means à la définition du nombre de VM optimal dans un cloud

SARM: Simulation of Absorption Refrigeration Machine

QUI VEUT JOUER AVEC MOI?

Big Data et Graphes : Quelques pistes de recherche

Introduction au datamining

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Echantillonnage Non uniforme

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

EVARIST: un outil de monitoring du buzz et de l e-reputation sur Twitter

Big Data et Graphes : Quelques pistes de recherche

Préparer un état de l art

Informatique / Computer Science

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Chapitre 3 : INFERENCE

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Ne cherchez plus, soyez informés! Robert van Kommer

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Application Form/ Formulaire de demande

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Ingénierie et gestion des connaissances

BIG Data et R: opportunités et perspectives

Laboratoire d Automatique et Productique Université de Batna, Algérie

Une méthode d apprentissage pour la composition de services web

Informatique / Computer Science

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Exemple PLS avec SAS

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

ERA-Net Call Smart Cities. CREM, Martigny, 4 décembre 2014 Andreas Eckmanns, Responsable de la recherche, Office Fédéral de l énergie OFEN

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

La classification automatique de données quantitatives

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Plan du cours : Zippers. Des fonctions sur les listes avec position. Des fonctions sur les listes avec position

Etude comparative de différents motifs utilisés pour le lancé de rayon

Les Entrepôts de Données

FaceBook aime les Maths!

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Génie logiciel (Un aperçu)

TRAVAUX DE RECHERCHE DANS LE

Thibault Denizet. Introduction à SSIS

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Visualiser des données.

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

MatrixExplorer: Un système pour l analyse exploratoire de réseaux sociaux

Laboratoire 4 Développement d un système intelligent

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Once the installation is complete, you can delete the temporary Zip files..

Introduction à l étude des Corps Finis

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Comprehensive study on Internet related issues / Étude détaillée sur les questions relatives à l Internet. November/Novembre 2014

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

FIMA, 7 juillet 2005

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Une forme générale de la conjecture abc

Partie 1. La structure des réseaux sociaux

Analyses. qlikview.com. facile à utiliser. Les utilisateurs aiment QlikView pour : la recherche associative ;

5 meilleures pratiques pour créer des tableaux de bord efficaces et 7 erreurs à éviter

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Projet de Traitement du Signal Segmentation d images SAR

Nous désirons tout mettre en œuvre pour découvrir le travail d enseignant et surtout, améliorer nos

Formula Negator, Outil de négation de formule.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Machines virtuelles Cours 1 : Introduction

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

WEB page builder and server for SCADA applications usable from a WEB navigator

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Pascal Forget 2310, Avenue Notre-Dame Québec, (Québec) Canada, G2E 3G5 Tél. (418) Fax (418)

Traitement bas-niveau

Scénarios économiques en assurance

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

SysFera. Benjamin Depardon

APPENDIX 6 BONUS RING FORMAT

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Analyse des réseaux : Une introduction à Pajek

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Apprentissage statistique dans les graphes et les réseaux sociaux

Travailler avec les télécommunications

Transcription:

Empreintes conceptuelles et spatiales pour la caractérisation des réseaux sociaux Bénédicte Le Grand*, Marie-Aude Aufaure** and Michel Soto* *Laboratoire d Informatique de Paris 6 UPMC {Benedicte.Le-Grand, Michel.Soto}@lip6.fr **Laboratoire MAS, Ecole Centrale Paris Marie-Aude.Aufaure@ecp.fr Résumé. Cet article propose une méthode reposant sur l utilisation de l Analyse Formelle de Concepts et des treillis de Galois pour l analyse de systèmes complexes. Des statistiques reposant sur ces treillis permettent de calculer la distribution conceptuelle des objets classifiés par le treillis. L expérimentation sur des échantillons de trois réseaux sociaux en ligne illustre l utilisation de ces statistiques pour la caractérisation globale et pour le filtrage automatique de ces systèmes. Introduction L objectif de ce papier est de proposer une méthode reposant sur l utilisation de l Analyse Formelle de Concepts et des treillis de Galois pour l analyse de systèmes complexes. Cette technique fournit une caractérisation visuelle et intuitive de ces systèmes par le biais du calcul d empreintes conceptuelles calculées à partir de treillis de Galois. Ces empreintes (définies dans la section 2.2) aident l observateur à mieux comprendre la structure et les propriétés des données étudiées, et à identifier les éléments significatifs ou au contraire marginaux. Cette méthode permet également d automatiser le processus de filtrage des éléments marginaux. Bien que cette approche soit applicable à tout type de systèmes complexes, nous avons choisi de l appliquer au contexte des réseaux sociaux. Les réseaux sociaux en ligne tels que, Facebook ou Flickr connaissent un succès grandissant ; ces sites permettent de construire des réseaux sociaux basés sur des relations professionnelles, des loisirs communs, etc. La recherche et la navigation dans ces réseaux, ainsi que leur visualisation, sont devenues des tâches ambitieuses. L analyse des réseaux sociaux (Wasserman et al., 994) consiste à comprendre et interpréter le comportement d un réseau. Cette analyse peut également fournir des informations sur la manière dont les communautés se forment et interagissent. Les réseaux sociaux ont été étudiés d un point de vue mathématique et statistique (ewman, 23), mais aussi en informatique pour les aspects recherche, navigation et visualisation sociale (Brusilovsky, 28). Une manière intéressante de comprendre et interpréter les interactions dans les réseaux sociaux est de combiner des techniques d analyse avec la visualisation, comme dans le logiciel Pajek (Batagelj et al., 23). Les techniques proposées ici constituent une autre approche de ces réseaux, comme présenté dans la suite.

Empreintes conceptuelles et spatiales de réseaux sociaux 2 Empreintes conceptuelles de réseaux sociaux 2. Analyse Formelle de Concepts et treillis de Galois L Analyse Formelle de Concepts est une approche mathématique de l analyse de données qui fournit une structure à l information, utilisée par exemple pour le clustering conceptuel comme dans (Carpineto et al., 993) et (Wille, 984). La notion de treillis de Galois a été introduite par (Birkhoff, 94) et par (Barbut et al., 97). L algorithme de Galois consiste à regrouper les objets étudiés dans des classes en fonction des propriétés qu ils ont en commun. Soient deux ensembles finis D (un ensemble d objets) et M (l ensemble des propriétés de ces objets), et une relation binaire R DxM entre ces deux ensembles. Soit o un objet de D et p une propriété de M. On a orp si l objet o possède la propriété p. Soit P(D) une partition de D et P(M) une partition de M. Chaque élément du treillis est un couple, aussi appelé concept, noté (O, A). Un concept est composé des deux ensembles O P(D) et A P(M) qui satisfont les propriétés suivantes (): A = f(o), où f(o) = {a M o O, ora} O = f (A), où f (A) = {o D a A, ora} O est appelé l extension du concept, et A en est l intention. L'extension représente un sous-ensemble des objets de l'application et l'intention représente les propriétés communes à ces objets. La complexité des treillis de Galois (liée en particulier à leur taille, liée au nombre de concepts qu ils contiennent) peut les rendre extrêmement difficiles à interpréter avec des diagrammes de Hasse traditionnels. (Jay et al., 28) ont défini des mesures intéressantes pour réduire la taille de grands treillis de concepts et appliquent leur méthode aux communautés de soins et de santé. otre approche consiste à calculer des statistiques conduisant à la définition de ce que nous appelons la distribution conceptuelle, présentée dans la section suivante. 2.2 Distribution conceptuelle des objets d un système complexe Le treillis de Galois est utilisé pour calculer des statistiques sur chacun des objets du système complexe correspondant. Dans un réseau social, les objets peuvent être les membres du réseau. Dans ce cas, les propriétés d un objet sont par exemple ses contacts. Dans la suite, on considère un objet o. Calcul de la Relatedness Soit C l ensemble des concepts du treillis contenant l objet o dans leur extension. Soit C l ensemble des concepts de C contenant au moins un autre objet que o dans leur extension et au moins une propriété dans leur intention. La valeur de Relatedness de l objet o (notée Relatedness(o)) correspond au nombre moyen d objets avec lesquels o est regroupé dans les concepts de C, divisé par le nombre total d objets du réseau social. La valeur de Relatedness indique si o est connecté à de nombreux autres objets. Calcul de la Closeness Soit S l ensemble des objets avec lesquels o est regroupé dans au moins un concept du treillis (i.e. l ensemble des objets avec lesquels o est connecté) ; ces objets possèdent au moins une propriété commune avec o (par construction). La valeur de Closeness de l objet o

Le Grand et al. (notée Closeness(o)) est le nombre moyen de propriétés que o partage avec les autres objets de S, divisé par le nombre total de propriétés de o. Ce paramètre permet d indiquer si l objet o a une ressemblance faible ou forte avec les autres objets de S. Distribution conceptuelle Le couple (Relatedness(o), Closeness(o)) constitue la distribution conceptuelle de l objet o. Empreinte conceptuelle La valeur moyenne des paramètres de Relatedness et de Closeness pour tous les objets d un système donné constitue l empreinte conceptuelle de ce système. Soit syst le système complexe étudié comportant objets. empr_conc(syst) = (relatedness(syst), closeness(syst)) où relatedness( syst) = et closeness( syst) 3 Expérimentation et résultats i= i= = 3. Description des ensembles de données relatedness( o ) closeness( o ) Pour cette expérimentation, nous avons utilisé quatre échantillons de réseaux sociaux collectés à l aide d un "crawler" dédié permettant de parcourir ces réseaux à partir de points d entrée donnés (c est-à-dire des membres de ces réseaux sociaux). Le crawler récupère les contacts des membres choisis comme points d entrée et recherche les contacts de ces contacts de manière récursive. L extraction des contacts est bornée par deux paramètres qui définissent respectivement la profondeur de la recherche et le nombre maximum de contacts recherchés pour chaque membre. Chaque membre parcouru, c est-à-dire dont les contacts ont été retrouvés, est appelé un objet et ses contacts correspondent à ses propriétés. Dans nos échantillons, le nombre de membres total de chacun des réseaux sociaux est beaucoup plus élevé que le nombre d objets collectés car seule une fraction d entre eux a été parcourue (à cause de la restriction en profondeur). Echantillon Réseau social en ligne b d objets ombre de points de départ Profondeur i i ombre Max de contacts à chaque itération ombre total de contacts 2 2 2 5 726 Flickr 56 3 3 5 994 6 2 3 5 228 Flickr 27 2 3 5 336 Tableau. Echantillons collectés sur différents réseaux sociaux en ligne Ces échantillons représentent des vues partielles et biaisées des réseaux sociaux étudiés, dans la mesure où ils ne contiennent que des sous-ensembles des membres sélectionnés sur des critères différents en termes de point(s) de départ, de profondeur et de nombre maximum

Empreintes conceptuelles et spatiales de réseaux sociaux de contacts pour chaque personne). Les interprétations sont valides localement, c est-à-dire, pour les "régions" dont sont issues nos données. Comme nous le verrons dans la suite, il est donc possible d obtenir des résultats différents avec les 2 échantillons collectés sur Flickr. 3.2 Résultats de l analyse conceptuelle La Figure représente les empreintes conceptuelles des quatre échantillons de réseaux sociaux étudiés, constituées des paramètres de Relatedness et de Closeness de ces systèmes. 4 2 2,5 8 6 4 Closeness Moyenne,5 2 Avg Relatedness Avg Closeness - 2 3 4 -,5 Relatedness Moyenne Fig.. Empreintes conceptuelles Fig. 2. Distributions conceptuelles des individus La Figure montre que l échantillon a la valeur de Relatedness moyenne la plus élevée, devant, et enfin. Cela signifie que les membres de l échantillon ont des contacts communs avec une plus grande proportion des autres membres de leur réseau que les membres des trois autres échantillons. Les faibles valeurs de Relatedness moyenne de signifient que les membres de cet échantillon partagent peu de contacts communs. Les valeurs de Closeness permettent de savoir si les liens entre les membres sont forts ou non puisqu elle indique s il y a peu ou beaucoup de contacts communs. La Figure montre que les valeurs de Closeness moyenne sont faibles. Afin d analyser plus précisément ces échantillons, nous étudions la distribution conceptuelle de chacun de leurs membres. Sur la Figure 2, chaque bulle représente un ensemble d objets du réseau social dont les coordonnées du centre sont la Relatedness et la Closeness correspondantes. La distribution des membres individuels fournit une indication supplémentaire quant à l homogénéité de ces valeurs. En effet, les valeurs de Relatedness et surtout de Closeness de l échantillon sont beaucoup plus homogènes (i.e. les bulles sont beaucoup plus regroupées dans une même zone du graphique) que celles de l échantillon pour lequel on peut distinguer plusieurs clusters. Closeness Moyenne,8,6,4,2,8,6,4,2 2 4 6 8 Relatedness Moyenne Fig. 3. Filtrage de Closeness Moyenne,3,25,2,5,,5-2 2 4 6 8 Relatedness Moyenne Fig. 4. Filtrage de

Le Grand et al. Les distributions conceptuelles des membres des réseaux et mettent en évidence des membres dont les valeurs de Relatedness et de Closeness sont très faibles (Fig. 2). Ces individus sont dits marginaux et il est intéressant de calculer les nouvelles distributions conceptuelles obtenues après les avoir éliminés (c est-à-dire après avoir supprimé la bulle située en bas à gauche). Le résultat est présenté sur les Figures 3 et 4. Après filtrage, la distribution conceptuelle de (Fig. 3) ne contient plus la «grosse bulle» d éléments marginaux, alors que la distribution conceptuelle de (Fig. 4) comporte à nouveau des éléments marginaux. Si l on poursuit ce processus de filtrage sur en recalculant la distribution conceptuelle après avoir éliminé la bulle en bas à gauche, il reste encore des éléments marginaux. L échantillon est intrinsèquement hétérogène et contiendra toujours des éléments marginaux, quel que soit le nombre de filtrages effectués. Le processus de filtrage a été automatisé sur le critère des valeurs de Relatedness et de Closeness moyennes, en éliminant des ensembles de données d origine, les objets dont les valeurs de Relatedness et de Closeness sont inférieures aux valeurs de Relatedness et de Closeness du système (moins α *écart type, où α peut varier). % d'objets résiduels 9 8 DailyM otion M yspace 7 6 5 Flickr 5 2 3 4 5 6 Itérations Fig. 5. Comparaison des résultats du filtrage conceptuel Les paramètres de Relatedness et Closeness sont recalculés pour tous les objets du nouvel échantillon, et les éléments marginaux de cet ensemble sont éliminés, et ainsi de suite. L algorithme de filtrage converge lorsque l ensemble de données ne contient plus d éléments marginaux, i.e. lorsque les valeurs de Relatedness et de Closeness de tous les objets résiduels sont suffisamment homogènes. La Figure 5 compare les résultats obtenus avec ce filtrage conceptuel automatique appliqué aux quatre échantillons étudiés, avec α=,5. Comme l on pouvait s y attendre, le filtrage reposant sur des paramètres conceptuels affecte beaucoup l échantillon et confirme qu il reste toujours des éléments marginaux après chaque étape de filtrage. A l inverse, aucun membre du réseau n est éliminé de l échantillon initial. 4 Conclusion Cet article a présenté une méthode conceptuelle pour l analyse et l exploitation de treillis de Galois. Cette caractérisation conceptuelle repose sur des statistiques calculées pour chaque objet en fonction des extensions et des intensions des concepts du treillis, sous la

Empreintes conceptuelles et spatiales de réseaux sociaux forme de paramètres conceptuels appelés Relatedness et Closeness. Ces informations permettent de caractériser les ensembles de données en terme d homogénéité ou d hétérogénéité et de réaliser un filtrage automatique des objets dits marginaux. La méthode proposée a été expérimentée sur quatre échantillons de réseaux sociaux afin d illustrer son fonctionnement et ses résultats. Références Barbut, M., Monjardet, B., Ordre et classification, Algebre et combinatoire, Tome 2, Hachette, 97. Batagelj, V., Mrvar, A.: Pajek - Analysis and Visualization of Large etworks. in Jünger, M., Mutzel, P., (Eds.) Graph Drawing Software. Springer, Berlin 23. p. 77-3 Birkhoff, G., Lattice Theory, First Edition, Amer. Math. Soc. Pub. 25, Providence, R. I., 94. Brusilovsky P. Social Information Access: The Other Side of the Social Web, Proceedings of SOFSEM 28, 34th International Conference on Current Trends in Theory and Practice of Computer Science, High Tatras, Slovakia, January 9-25, 28 (Invited Talk). Carpineto, C., Romano, G., Galois: An order-theoretic approach to conceptual clustering, Proc. Of the th Conference on Machine Learning, Amherst, MA, Kaufmann, pp. 33-4, 993. Godin, R, Chau, T.-T., Incremental concept formation algorithms based on Galois Lattices, Computational intelligence,, n 2, p246 267, 998. Jay,., Kohler, F. and apoli, A: Analysis of Social Communities with Iceberg and Stability-Based Concept Lattices. ICFCA 28: 258-272. ewman M.E.J., The structure and function of complex networks, SIAM Review 45, pp. 67-256, 23. Wasserman S., and Faust K., Social etwork Analysis: Methods and applications. Cambridge University Press, Cambridge, UK, 994. Wille, R., Line diagrams of hierarchical concept systems, Int. Classif., pp. 77-86, 984. Wille, R., Concept lattices and conceptual knowledge systems, Computers & Mathematics Applications, 23, n 6-9, pp. 493-55, 992. Summary In this paper, Formal Concept Analysis and Galois lattices are used for the analysis of complex datasets, online social networks in particular. Lattice-inspired statistics computed on the objects of the lattice provide their conceptual distribution. An experimentation conducted on four social networks samples shows how these statistics may be used to characterize these networks and filter them automatically.