SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

Documents pareils
La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

AGROBASE : un système de gestion de données expérimentales

statique J. Bertrand To cite this version: HAL Id: jpa

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Dessin assisté par ordinateur en lycée professionnel

Compte-rendu de Hamma B., La préposition en français

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

Program Analysis and Transformation: From the Polytope Model to Formal Languages

Les Champs Magnétiques

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

Peut-on perdre sa dignité?

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Sur la transformation de l électricité statique en électricité dynamique

Les déterminants du volume d aide professionnelle pour. reste-à-charge

ISTEX, vers des services innovants d accès à la connaissance

Diffusion de l information dans les médias sociaux Modélisation et analyse

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

La complémentaire santé : une généralisation qui

Sylvain Meille. Étude du comportement mécanique du plâtre pris en relation avec sa microstructure.

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Formula Negator, Outil de négation de formule.

Un exemple spécifique de collaboration : Le produit-partage

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Calculer les coûts ou bénéfices de pratiques sylvicoles favorables à la biodiversité : comment procéder?

Présentation Alfresco

Famille continue de courbes terminales du spiral réglant pouvant être construites par points et par tangentes

Jessica Dubois. To cite this version: HAL Id: jpa

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Accès aux données Sentinelles

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Sécuristation du Cloud

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association

Introduction à la B.I. Avec SQL Server 2008

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Compte-rendu re union Campus AAR 3 mars 2015

Protection de la vie privée basée sur des ontologies dans un système Android

Fouillez facilement dans votre système Big Data. Olivier TAVARD

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

Services à la recherche: Data Management et HPC *

TRAVAUX DE RECHERCHE DANS LE

données en connaissance et en actions?

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

La régulation du réseau Internet

Présentation du module Base de données spatio-temporelles

Cognit Ive Cas d utilisation

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Jean-François Boulicaut & Mohand-Saïd Hacid

Etude des convertisseurs statiques continu-continu à résonance, modélisation dynamique

Business & High Technology

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Hervé Couturier EVP, SAP Technology Development

Introduction aux SGBDR

UE 8 Systèmes d information de gestion Le programme

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Forthcoming Database

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Présentation générale du projet data.bnf.fr

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Content Management System. bluecube. Blue Cube CMS V4.3 par Digitalcube

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

La technologie Java Card TM

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Gérer sa relation clients : Excel peutil suffire encore longtemps?

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Réseaux sociaux virtuels et création de valeur

INTRODUCTION AU DATA MINING

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

JRES 2005 : La mémorisation des mots de passe dans les navigateurs web modernes

Vérifier la qualité de vos applications logicielle de manière continue

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Bases de données Cours 1 : Généralités sur les bases de données

Décompresser, créer une archive au format «ZIP»

Jean Sykes Nereus, la collaboration européenne, et le libre accès

BIG Data et R: opportunités et perspectives

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Transcription:

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed. SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne. 13e Conférence en Extraction et Gestion des Connaissances, Jan 2013, France. 2013, pp.45-48, 2013. <hal-00770557> HAL Id: hal-00770557 https://hal.archives-ouvertes.fr/hal-00770557 Submitted on 7 Jan 2013 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien Guille, Cécile Favre Djamel Abdelkader Zighed Laboratoire ERIC - Université Lyon 2 {adrien.guille cecile.favre}@univ-lyon2.fr, Institut des Sciences de l Homme de Lyon, Laboratoire ERIC - Université Lyon 2 Abdelkader.Zighed@ish-lyon.cnrs.fr Résumé. Ce papier décrit la plateforme SONDY qui permet l analyse et la fouille de données issues de réseaux sociaux en ligne. La plateforme permet d explorer et de visualiser l évolution des thématiques populaires et la structure du réseau social de manière interactive. Elle permet également de comparer les méthodes utilisées et d en intégrer de nouvelles. La démonstration consistera à expérimenter tous les services de SONDY sur des données issues de Twitter. 1 Introduction Les réseaux sociaux en ligne permettent à des millions d internautes à travers le monde de produire et consommer des contenus en temps réel. Ce flux continu de contenus est un mélange non structuré d idées, d informations, d opinions, etc. Etant donné l impact de ces réseaux sur la société, il est devenu important de pouvoir fouiller efficacement ces données. C est pourquoi de nombreuses approches ont été proposées récemment afin de pouvoir identifier à partir de cette masse d information, notamment, des thématiques émergentes, des évènements ou encore des personnes influentes ou des communautés. 1.1 Constats et besoins Bien que de nombreuses méthodes aient été proposées, nous constatons la difficulté de pouvoir les réutiliser simplement. Pour cette raison, il apparaît pertinent de proposer une plateforme les intégrant et permettant de les manipuler. Deux types de public sont concernés : d une part, les utilisateurs finaux, tels que des journalistes ou des analystes médias, qui souhaitent explorer l activité sociale, et d autres part les chercheurs qui désirent expérimenter et comparer des méthodes d analyse et de fouille sur ces données. Un outil de veille basé sur l analyse de la diffusion d informations permettrait aux journalistes de mieux appréhender les informations circulant sur un média social comme Twitter par exemple. Une plateforme open-source permettrait aux chercheurs d implémenter leurs algorithmes sans se soucier de la gestion des données en entrée, des moyens de visualisation en sortie, et leur permettrait également de les comparer aisément avec d autres.

Plateforme SONDY 1.2 Proposition : SONDY Nous proposons une plateforme open-source permettant à la fois de traiter les flux de messages et la structure associés aux réseaux sociaux (FIG. 1), nommée SONDY 1 (i.e. SOcial Networks Dynamics, "sondy" étant également le terme tchèque pour sonde), développée avec le langage JAVA (environ 10000 lignes de code) en raison de sa simplicité et de sa grande compatibilité. Le stockage des données se fait avec une base de données MySQL 2 et l indexation avec la librairie LUCENE 3. La visualisation interactive de graphe utilise l API GraphStream 4. 2 Architecture de la plateforme Les données d entrée de l application sont un ensemble de messages accompagnés de leur date de publication (donc un flux de messages) et leur auteur, ainsi que le graphe social connectant ces derniers. Pour traiter ces données, la plateforme se décompose en quatre services : 1. Le service de manipulation des données, pour importer et préparer les données afin d en optimiser leur utilisation par les autres services. 2. Le service de détection de thématiques, pour identifier et localiser temporellement des thématiques populaires. 3. Le service d analyse du réseau, pour observer la structure du réseau des auteurs et trouver, par exemple, des personnes influentes ou des communautés. 4. Le service de gestion des extensions, pour importer de nouveaux algorithmes utilisés par le service de détection de thématiques ou le service d analyse du réseau. 2.1 Service de manipulation des données Ce service gère une collection de jeux de données et permet non seulement d en importer de nouveaux, mais également de les pré-traiter en vue de leur future exploitation par les autres services. Lorsqu un nouveau jeu de données est importé dans la collection, l application le stocke dans une base de données indexée ad-hoc. Les filtres proposés sont les suivants : 1. Discretisation temporelle du flux de messages, afin de pouvoir appliquer les méthodes se basant sur le calcul de la fréquence des termes. 2. Redimensionnement du flux de messages, afin d étudier un extrait d un jeu de données. 3. Suppression des mots outils, pour nettoyer les données, en enlevant par exemple des termes trop courants ou des termes spécifiques à la source de données, selon une liste intégrée ou à la discrétion de l utilisateur. 4. Stemming, pour désuffixer les termes afin d améliorer l efficacité de certains algorithmes de détection de thématiques. 1. http://eric.univ-lyon2.fr/~aguille/adrien_guille_-_software.html 2. http://www.mysql.com 3. http://lucene.apache.org 4. http://graphstream-project.org

A. Guille et al. FIG. 1 SONDY : détection de thématiques (à gauche), analyse du réseau (à droite). 2.2 Service de détection de thématiques Ce service permet d appliquer différents algorithmes sur un jeu de donnée choisi afin d extraire des thématiques d intérêt. Les résultats des algorithmes peuvent être exportés pour être comparés ensuite, leur temps de calcul est affiché, et il est possible de les explorer selon plusieurs moyens : en parcourant la liste classée des thématiques détectées, en générant des timelines pour résumer l information, en sélectionnant une thématique en particulier puis en visualisant l évolution de sa popularité dans le temps et en la comparant avec d autres. Les algorithmes actuellement implémentés sont les suivants : 1. Peaky Topics (Shamma et al., 2011), pour détecter des thématiques très populaires sur une période très localisée. 2. Persistent Conversations (Shamma et al., 2011), pour détecter des thématiques moins saillantes mais qui continuent de générer de l activité plus longtemps. 3. TSTE (Temporal and Social Term Evaluation) (Cataldi et al., 2010), pour détecter des thématiques émergentes en prenant en compte l autorité des auteurs (à l aide de l algorithme PageRank). Afin d aider à la localisation temporelle des périodes de popularité des thématiques, l application implémente également l indicateur MACD (Lu et al., 2012) (Moving Average Convergence Divergence). 2.3 Service d analyse du réseau Ce service permet de visualiser le réseau des auteurs en rapport avec la thématique et la période sélectionnées dans le service de détection. Les graphes présentés sont colorés, il est possible de se déplacer ou zoomer, ainsi que de sélectionner les nœuds pour les identifier ou explorer leurs messages. Pour colorer les graphes et ainsi en faire ressortir la structure, les algorithmes suivants sont implémentés :

Plateforme SONDY 1. K-Cores Decomposition (Batagelj et Zaversnik, 2003), un algorithme pour identifier des sous-ensembles particuliers du graphe appelés k-cores. Les plus grandes valeurs de k correspondent aux nœuds les plus centraux du réseau. 2. PageRank (Page et al., 1998), un algorithme classique pour quantifier l autorité des nœuds au sein du réseau. 2.4 Service de gestion des extensions SONDY propose une interface de programmation permettant d implémenter de nouveaux algorithmes, qui fournit les définitions à respecter ainsi que les moyens permettant de manipuler les données. L import de nouveaux algorithmes se fait à l aide d une classe compilée en format JAR. Une fois l algorithme importé via le service de gestion des extensions, il apparaît dans l interface utilisateur, ce qui permet de l appliquer de manière interactive et de faire varier ses paramètres. 3 Perspectives L idée étant de disposer d une plateforme comparative des méthodes, l objectif est bien sûr d implémenter au fur et à mesure les méthodes les plus pertinentes d analyse de ces données pour enrichir la plateforme, ainsi que de tester nos propres contributions dans ce domaine. Il sera intéressant par la suite d intégrer au service de manipulation de données la possibilité de récupérer des données directement depuis des réseaux sociaux en ligne. On pourra aussi intégrer de nouveaux services, comme des services d inférence ou encore de prédiction du graphe de diffusion par thématique. Références Batagelj, V. et M. Zaversnik (2003). An o(m) algorithm for cores decomposition of networks. Cataldi, M., L. Di Caro, et C. Schifanella (2010). Emerging topic detection on twitter based on temporal and social terms evaluation. MDMKDD 10, pp. 4 13. Lu, R., Z. Xu, Y. Zhang, et Q. Yang (2012). Trends predicting of topics on twitter based on macd. IACSIT 12, pp. 44 49. Page, L., S. Brin, R. Motwani, et T. Winograd (1998). The pagerank citation ranking : Bringing order to the web. WWW 98, pp. 161 172. Shamma, D. A., L. Kennedy, et E. F. Churchill (2011). Peaks and persistence : modeling the shape of microblog conversations. CSCW 11, pp. 355 358. Summary This paper presents the SONDY platform that allows to analyse and mine both messages stream produced by a social network and its structure.