CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

RÉSUMÉ DESCRIPTIF DE LA CERTIFICATION (FICHE RÉPERTOIRE)

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Etudier l informatique

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Big Data et Graphes : Quelques pistes de recherche

THOT - Extraction de données et de schémas d un SGBD

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Diffusion de l information dans les médias sociaux Modélisation et analyse

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Entrepôt de données 1. Introduction

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Présentation Alfresco

BI = Business Intelligence Master Data-Science

Contenu disciplinaire (CK)

Collaboration innovante pour la création d un outil de gestion de production pour le cinéma et l audiovisuel

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

M Études et développement informatique

Panorama des études à travers les filières. FEEL du 23 octobre 2014

M Études et développement informatique

Métiers d études, recherche & développement dans l industrie

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

DATA ANALYTICS Des données aux connaissances et à la création de valeur

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Chapitre 9 : Informatique décisionnelle

Master Informatique Aix-Marseille Université

Panorama des solutions analytiques existantes

CURRICULUM VITAE. Informations Personnelles

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

ISTEX, vers des services innovants d accès à la connaissance

Plan d action SMB d une Approche Agile de la BITM Pour les PME

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Accélérer l agilité de votre site de e-commerce. Cas client

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Big Data On Line Analytics

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Application de K-means à la définition du nombre de VM optimal dans un cloud

Conception des systèmes répartis

Enquête 2014 de rémunération globale sur les emplois en TIC

Laboratoire 4 Développement d un système intelligent

ANNEXE 1. Si vous souhaitez ajouter un descriptif plus détaillé de l offre à votre annonce, merci de le joindre accompagné de ce formulaire.

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Les technologies du Big Data

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

LIVRE BLANC Décembre 2014

Apprentissage Automatique

SCIENCES & TECHNOLOGIES - SANTÉ ET STAPS MASTER INFORMATIQUE. Parcours Ingénierie du Logiciel Libre (I2L)

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Présentation de la majeure ISN. ESILV - 18 avril 2013

Référencement naturel

Une méthode d apprentissage pour la composition de services web

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

SQL Server 2012 et SQL Server 2014

QLIKVIEW ET LE BIG DATA

Présentation générale du projet data.bnf.fr

Les Réunions Info Tonic. Améliorer la visibilité de son site internet Mardi 10 décembre 2013

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Session de transfert Atelier 3 Présentation du nouveau KF en construction. Christian Perreault, Université Laval

L Intelligence Compétitive 2.0 pour le pilotage des projets e-marketing

Pour les futurs développeurs Sommaire

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Refonte front-office / back-office - Architecture & Conception -

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises)

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

Inscriptions : Renseignements : 33 (0) education.france@sap.com

Cognit Ive Cas d utilisation

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Présentation de l'architecture QlikView. Livre blanc sur la technologie QlikView. Date de publication : octobre

Cycle de formation certifiante Sphinx

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

TRAVAUX DE RECHERCHE DANS LE

Gestion collaborative de documents

NUI. Natural User Interfaces Usages et enjeux pour la création

AGATHE : une architecture générique à base d agents et d ontologies pour la collecte d information sur domaines restreints du Web

Description du programme du Master M2 MIAGE SIIN (1)

Business Intelligence avec SQL Server 2012

Christelle MAZIERE (30 ans)

Transcription:

CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France

Contexte Laboratoire ERIC Université Lumière Sciences Humaines et Sociales Sociologie, Psychologie, Linguistique, Histoire, etc.) Projets de recherche multidisciplinaire Identifier des patrons à partir des textes mortuaires (historiens) Analyser des débats publiques : forums en ligne et média traditionnel (sciences sociales) Discoures sur la médecine nucléaire: évolution diachronique et diastratique (linguistes) Evolution de l'images des politiciens et des entreprises à travers le média social (sciences politiques) Détecter des rôles sociaux dans des réseaux sociaux enferré à partir des discussions sur des forum en ligne (Technicolor) 2

Les données : Une collection de textes en langage naturel, souvent issus de l'internet. Les défis : grands volumes de données ; besoin de résumer les «idées» principales : les thématiques besoin d'analyser comment les utilisateurs interagissent par rapport à l'information textuelle (diffusion de l information, réseaux sociaux). 3

Une solution issue du data mining : Extraire les thématiques des discussions Associer à ces thématiques des noms compréhensibles pour les humains Analyser le réseau social en ligne des utilisateurs qui discutent Dimension appliquée : Demande très forte de la part de chercheurs, surtout dans le domaine des Sciences Humaines et Sociales (Sociologie, Psychologie, Linguistique, Histoire, etc.) Solution implémentée dans une plateforme d'analyse des discussion sur des forums en ligne CommentWatcher 4

Le contexte du travail - les forums de discussion Nom d'utilisateur Date du message Difficultés : La plupart des outils ne traitent pas l'aspect réseau social des données forum Popularité (infos supplémentaires) [AME12, GUI13] Manque de jeux de données issues de forums Structure des sites qui change constamment Problème de licence sur le contenu des forums Relation structurelle (réponds à) 5

Objectif général : deux types d'utilisateurs l analyste des forums : comprendre les discussions entre les utilisateurs et leurs thématiques le chercheur : construire des jeux de données forums, analyser les évolutions des thématiques de discussion Notre proposition : CommentWatcher Plateforme Web opensource (GPLv3) 4 tâches : Récupération des données à partir d'internet Extraction de thématiques Visualisation de thématiques comme un nuage d'expressions et l'évolution temporelle Visualisation du réseau social sous-jacent 6

Module I. Récupération des données Récupérer le texte des discussion sur des forum en ligne, ainsi que des méta-données sur les utilisateurs et leur relations (e.g., pseudo, nom, date, qui répond à qui etc.) Méta-parseur, indépendant de la structure des pages web Support pour de nouveaux sites via des fichiers de définition Recherche des forums supportés via une requête, en utilisant l'api Bing Téléchargement «en masse» des forums 7

Module II. Extraction des thématiques Extraire les thématiques de discussions, à partir d'un sous-ensemble de documents, en utilisant des algorithmes issues de data mining. 3 algorithmes supportés : Topical Ngrams (suite Mallet [MCC02]) CKP [RIZ10] Dynamic Topic Models [BLE06] (en développement) ---> Partitions: ----> Cluster 0 [101]:... ----> Cluster 1 [90]:... ----> Cluster 2 [128]:... texte_81... ----> Cluster 3 [192]:... texte_81... Result - Cluster description: -> Centroid[0]: "jours fériés" -> Centroid[1]: "travailler plus pour gagner plus" -> Centroid[2]: "commémoration" -> Centroid[3]: "histoire de france" Exemple de sortie du logiciel d'extraction de thématiques, inclus dans CommentWatcher 8

Module III. Visualiseurs Nuage d'expressions pour chaque thématique Évolution temporelle par forum et par site Évolution de la popularité d'une thématique Réseau social modélisé comme un multigraphe Nœuds : les utilisateurs ; Arcs : les messages associés à des thématiques Basé sur la relation de citation 9

Vidéo Site de Présentation : http://mediamining.univ lyon2.fr/commentwatcher 10

plateforme Web opensource parseur facilement adaptable aux changements de structure des sites visualiseurs qui permettent la compréhension rapide des thématiques de discussion et la structure du réseau social sous-jacent Développements futurs extraction de thématiques temporelles et visualisation adaptée intégration du calcul des mesures pour les réseaux sociaux évoluer la visualisation côté client (applet) vers une visualisation côté serveur intégrer l'évaluation de la cohésion sémantique des thématiques [MUS11] 11

Équipe de développement Développeur principal Développeurs Mouhamadou Bamba Kane (Master 2) Brian Ampwera (Master 1 DMKM) Cyril Briquet (Master 1 Informatique) Nikolay Anokhin (Master 1 DMKM) Projets de recherche ImagiWeb CRTT-ERIC ERIC-ELICO Conversession Supervision, Julien Velcin, Adrien Guille Je vous remercie pour votre attention! Site de présentation : http://mediamining.univ lyon2.fr/commentwatcher Installation publique : http://mediamining.univ lyon2.fr:8080/commentwatcher

Bibliographie [AME12] S. Amer Yahia, S. Anjum, A. Ghenai, A. Siddique, S. Abbar, S. Madden, A. Marcus, and M. El Haddad. Maqsa: a system for social analytics on news. In SIGMOD 12, pages 653 656, 2012. [GUI13] A. Guille, C. Favre, H. Hacid, and D. Zighed. Sondy: An open source platform for social dynamics mining and analysis. In SIGMOD 13, 2013. [MCC02] A. K. McCallum. Mallet: A machine learning for language toolkit. http://mallet.cs.umass.edu, 2002. [RIZ10] M. A. Rizoiu, J. Velcin, and J. H. Chauchat. Regrouper les données textuelles et nommer les groupes à l aide des classes recouvrantes. In EGC 10, page 561, 2010. [BLE06] David M Blei and John D Lafferty. Dynamic topic models. In Proceedings of the 23rd international conference on Machine learning, pages 113 120. ACM, 2006. [MUS11] Claudiu Musat, Julien Velcin, Stefan Trausan Matu and Marian Andrei Rizoiu. Improving topic evaluation using conceptual knowledge. In International Joint Conference on Artificial Intelligence, Proceedings of the Twenty Second, volume 3 of IJCAI 2011, pages 1866 1871. AAAI Press, 2011.