FOUILLE DE FORUM INTERNET



Documents pareils
INF6304 Interfaces Intelligentes

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Agence web en Suisse romande CH-1260 Nyon

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Améliorer les performances du site par l'utilisation de techniques de Web Mining

RI sociale : intégration de propriétés sociales dans un modèle de recherche

CRÉER UNE PAGE FACEBOOK POUR SON INSTITUTION

ASSURER LA CORRESPONDANCE DES ANCIENS CONTENUS AUX NOUVEAUX

Entreposage de données complexes pour la médecine d anticipation personnalisée

Chaînes de Markov au lycée

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Business Intelligence avec Excel, Power BI et Office 365

En 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Formation Découverte du Web

L utilisation d Internet par les femmes. Juin 2009

Routage AODV. Languignon - Mathe - Palancher - Pierdet - Robache. 20 décembre Une implémentation de la RFC3561

Les Français et le chauffage. Résultats de l étude menée

plate-forme PaaS (Audit)

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Du marketing multicanal au marketing interactif avec Unica

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

BIG DATA et DONNéES SEO

Programme Type de Formation SEO

Découverte et analyse de dépendances dans des réseaux d entreprise

BiSecur Gateway avec appli smartphone NOUVEAU

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

données en connaissance et en actions?

Apports des réseaux sociaux dans les SI

Cookies de session ils vous permettent de sauvegarder vos préférences d utilisation et optimiser l expérience de navigation de l Utilisateur ;

Lundi de l Economie l Mardi 19 novembre. Foix. CCI Ariège

Le comportement d achat des internautes européens: Evolutions et tendances

Les internautes français et la confiance numérique. Lundi 7 avril 2014

Les enjeux de l internationalisation e-commerce. Table ronde d expert

Apprentissage statistique dans les graphes et les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux

Techniques d interaction dans la visualisation de l information Séminaire DIVA

SPIP 1.9. Créer son site avec des outils libres. Michel-Marie Maudet Anne-Laure Quatravaux Dominique Quatravaux. Avec la contribution de Perline

EXEMPLE DE RAPPORT D'AUDIT. Site Internet

Introduction aux concepts d ez Publish

Business Intelligence

Améliorez vos taux de transformation grâce à la vidéo! Le videomarketing, la PLV pour le Web

Accédez au test ici

Mesurer le retour sur investissement

Dévéloppement de Sites Web

2. Quel est le problème? 3. Que dit la loi? 4. Qu est ce que le droit à l oubli? 5. Contacts utiles 6. À retenir

SharePoint 2013 L'environnement de travail collaboratif

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

*Avançons en confiance. BUREAU VERITAS Calendrier des formations aéronautiques 2015

Notes de cours - MOOC Communication

Administration du site (Back Office)

TIC. Réseau informatique. Historique - 1. Historique - 2. TC - IUT Montpellier Internet et le Web

Netlinking : obtenir des liens de qualité pour améliorer sa visibilité - Abondance.com - Mars Les Guides Abondance

Faire de la publicité sur GOOGLE AD-WORDS

Communication, relations publiques et relations médias à l heure des réseaux sociaux

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Parallélisme et Répartition

Évaluation des logiciels et autres réalisations

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

EndNote Web. Quick Reference Card THOMSON SCIENTIFIC

4.1. Exercice pour mieux se connaître

Table des matières. Préface...5. Introduction...9

Madame, Monsieur, PJ. 1 - Programme de formation 2 - Fiche d'inscription 3 - Présentation de Olivier GOBET

TEXT MINING Tour d Horizon

Préparer la synchronisation d'annuaires

DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran

ATOUT FRANCE AGENCE DE DÉVELOPPEMENT TOURISTIQUE DE LA FRANCE

MK DESIGN - 37, route de Camblanes Créon - Tél : Mail : contact@mkdesign.fr SIRET : Site Internet :

Analyse Combinatoire

Autour du web. Une introduction technique Première partie : HTML. Georges-André SILBER Centre de recherche en informatique MINES ParisTech

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

La recherche d'information sur Internet

SERVEUR DE SAUVEGARDE POUR BCDI3. par. G.Haberer, A.Peuch, P.Saadé

Créer et Utiliser un Forum en Ligne

CERTIFICATS ÉLECTRONIQUES

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

SEO & WordPress. Neil McCarthy GOODNESS CONSEIL EN WEBMARKETING & RÉFÉRENCEMENT. Bâtiment Enerpôle Technopôle Izarbel BIDART

TRAME POUR LA REALISATION D UN CAHIER DES CHARGES SITE WEB

Cours d algorithmique pour la classe de 2nde

2 Serveurs OLAP et introduction au Data Mining

1.1 Des concepts et termes techniques à maîtriser La formule magique du référencement Tricher ou non en référencement

Site de Chôlet. Niveau d huile bas SOYEZ PRÊTS. Pour le Nouveau Product Link

Application de K-means à la définition du nombre de VM optimal dans un cloud

Les Français et la publicité sur les Réseaux Sociaux

L arbre qui tombe est plus bruyant que la forêt qui pousse

BIRT (Business Intelligence and Reporting Tools)

Travailler avec les télécommunications

GEWISS FRANCE S.A.S. CODE D ETHIQUE INFORMATIQUE

Les diagrammes de modélisation

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

SEO Campus 2009 : Pagerank et optimisation

Transcription:

FOUILLE DE FORUM INTERNET Forum Web Intelligence & Usages Anna STAVRIANOU, Laboratoire ERIC anna.stavrianou@univ-lyon2.fr 4 février 2010

Caractéristiques d une discussion Sujet : «Y a-t-il trop de commémorations en France?»(http://www.liberation.fr/forums) Internautes Ils s identifient avec un pseudonyme. Messages Les internautes peuvent écrire un nouveau message ou répondre à un message existant. Relations Nous supposons que les relations «répond à» - tel message répond à tel message (un seul) - sont connues. Fouille de forum internet 2

Motivation Grand nombre et popularité de discussions en ligne Contenu intéressant Opinions des internautes Préférences, critiques de produits Présentation d idées politiques Nouveau domaine Fouille et analyse de discussions Faciliter la navigation Faciliter l extraction de connaissances Fouille de forum internet 3

Plan Méthodes existantes Notre proposition Utilisation du modèle Mesures Recommandation Prototype Conclusion Perspectives Fouille de forum internet 4

Méthodes existantes Représentation Réseau social des participants sous forme de graphes Objectifs Analyser l interaction entre les internautes Identifier des communautés et des rôles PARTICIPANT QUI PARLE A QUI Fouille de forum internet 5

Méthodes existantes Nombreuses méthodes existantes Zhang et al. (WWW, 2007) «Expertise networks in online communities» Motivation : analyse du forum de Sun (Java), identifier l expertise des internautes Analyse : à combien de personnes on répond, nombre de réponses par rapport au nombre de questions, à qui on répond (répondre aux experts montre une expertise) Fisher et al. (HICSS, 2006) «You are who you talk to: Detecting roles in Usenet newsgroups» Motivation : interprétation de la structure d une communauté afin d identifier les rôles de chaque internaute Observer comment les utilisateurs interagissent entre eux (personnes centrales de la discussion, voisins etc.) Fouille de forum internet 6

Limites des méthodes existantes Contenu, structure, opinion perdus A quel moment un internaute a parlé? Combien de fois? Est-ce qu il y a un conflit entre les internautes? Est-ce que les internautes ont tendance à discuter d une manière négative/positive? Point de vue limité, Réseaux Sociaux non adaptés Répondre au contenu des messages et pas aux auteurs Manque de relations entre les internautes Fouille de forum internet 7

Notre modèle Représentation basée sur les graphes Sommets : les objets de type message Liens : relations «répondre à» OBJET DE TYPE MESSAGE QUEL MSG REPOND A QUOI Fouille de forum internet 8

Post-Reply Opinion Graph (PROG) Définition : Nous représentons une discussion par un graphe orienté G=(V, E) V : l ensemble des sommets des «objets de type message» qui ont le format v = (m v, op v, u v, tm v ), MESSAGE OPINION AUTEUR CHRONOLOGIE m v est le contenu actuel du message op v est la polarité de l'opinion qui est incluse dans le message u v est l internaute qui a écrit le message tm v montre la chronologie à laquelle ce message a été enregistré dans la discussion E : l ensemble des liens où chaque lien e ij = (v i, v j ) représente une réponse dirigée de v i à v j Fouille de forum internet 9

Caractéristiques des objets de type message v = (m v, op v, u v, tm v ) Contenu du message m v Opinion op v Polarité de l opinion : positive, négative, objective Domaine d Opinion Mining MESSAGE OPINION AUTEUR CHRONOLOGIE Auteur u v Possibilité d extraire le réseau social du PROG Chronologie : A travers les liens / tm v enrichir le graphe Fouille de forum internet 10

Plan Méthodes existantes Notre proposition Utilisation du modèle Mesures Recommandation Prototype Conclusion Perspectives Fouille de forum internet 11

Mesures basées sur l opinion Opinion (Opinion Mining) v = (m v, op v, u v, tm v ) Statut d un internaute Statut vers un internaute Réactions vers un message Sommets d une polarité Opinion Moyenne Variété de l opinion Fouille de forum internet 12

Mesures basées sur l opinion Opinion (Opinion Mining) v = (m v, op v, u v, tm v ) Statut d un internaute Statut vers un internaute Réactions vers un message Sommets d une polarité Opinion Moyenne Variété de l opinion Fouille de forum internet 13

Mesures basées sur l opinion Opinion (Opinion Mining) Statut d un internaute Statut vers un internaute Réactions vers un message Sommets d une polarité Opinion Moyenne Variété de l opinion v = (m v, op v, u v, tm v ) Fouille de forum internet 14

Mesures basées sur le thème Thème (Topic Identification) Evolution de l opinion par utilisateur dans le thème Ancêtres Fouille de forum internet 15

Mesures basées sur le thème Thème (Topic Identification) Evolution de l opinion par utilisateur dans le thème Ancêtres Fouille de forum internet 16

Mesures basées sur le thème Thème (Topic Identification) Evolution de l opinion par utilisateur dans le thème Ancêtres Fouille de forum internet 17

Plan Méthodes existantes Notre proposition Utilisation du modèle Mesures Recommandation Prototype Conclusion Perspectives Fouille de forum internet 18

Systèmes de recommandation Motivation : recommander des items (films, pages Web, nouveautés ) aux internautes Comment? Votes par préférence ( ex : étoiles) 3 types Basés sur le contenu (similarité entre items) Collaboratifs (similarité entre internautes) Hybrides Cas de «Cold-start» Fouille de forum internet 19

Recommandation de messages intéressants Nouvel internaute Par où commencer? Où participer? Cas de «Cold-start» Manque de profils Fouille de forum internet 20

Messages Intéressants Interviewer 10 internautes qui visitent des discussions en ligne telles que les forums de manière quotidienne Opinion : Un message est intéressant s'il contient des opinions. Taille : Un message est intéressant s'il participe à un long fil de discussion. Réactions : Un message intéressant a provoqué plusieurs réactions. Premier : Le premier message d'un fil de discussion est intéressant. Chronologie : Le message le plus récent est intéressant. Fouille de forum internet 21

Messages Intéressants Hypothèses Opinion Taille Réactions Premier Chronologie Critères OPINION : l'opinion exprimée ORDER : nombre de sommets qui existent dans le fil de discussion où le message se trouve POPULARITY : la popularité du sommet REPLY : les réactions provoquées qui contiennent des opinions ENTROPY : la variété des opinions trouvées dans les réactions ROOT : s il est le premier message du fil ou pas Fouille de forum internet 22

1ère expérience 8 forums du site http://www.liberation.fr/forums/ 1 147 messages 636 réactions Objectif : les messages qui sont clés par rapport aux experts sont aussi classés comme clés par notre algorithme. 2 experts, corrélation entre les humains et nos résultats Evaluation de notre algorithme précision : éviter d extraire des messages qui ne sont pas clés rappel : combien des messages clés (notre méthode) sont considérés clés par les humains F1-mesure Fouille de forum internet 23

Résultats 1ère expérience (par critère) Evaluation par critère Précision basse : Variété du jeu de données CRITERE F1 MOYEN Probability Ranking Principle REPLY 0.30 POPULARITY 0.29 OPINION 0.28 ENTROPY 0.27 ROOT 0.26 ORDER 0.22 Fouille de forum internet 24

Résultats 1ère expérience (agrégation ) Agrégation linéaire des critères, poids = 1 CRITERE F1 MOYEN REPLY 0.30 POPULARITY 0.29 OPINION 0.28 ENTROPY 0.27 ROOT 0.26 ORDER 0.22 F1 MOYEN AGREGATION 0.48 Premier essai Jeu de données instable, experts Fouille de forum internet 25

2ème expérience 6 experts forums anglais (http://huffingtonpost.com) et français (http://www.liberation.fr/) Objectif : nous montrons les messages qui sont identifiés comme messages clés par des critères agrégés aux experts et ils indiquent s'ils sont d'accord ou pas. Classement Utile Ce à quoi il répond Réactions qu il a créées Indifférent Inutile Antérieur/postérieur pas intéressants Il n aide pas Pas intéressant Fouille de forum internet 26

Résultats 2ème expérience Tous les messages 1-5, maximum de messages utiles, minimum d inutiles > 10, beaucoup d inutiles Sans les messages courts Le nombre de messages inutiles diminue Fouille de forum internet 27

Observations Personnalisation nécessaire Profil de l utilisateur (langue, préférences, croyances) Style de forum (messages courts, opinion) Expériences avec des poids et des méthodes d agrégation variées Fouille de forum internet 28

Plan Méthodes Existantes Notre Proposition Utilisation du modèle Mesures Recommandation Prototype Conclusion Perspectives Fouille de forum internet 29

Contexte Projet «Conversession» Jeune entreprise soutenue par CREALYS (incubateur d'entreprises) Objectifs du projet : Analyse de discussions en ligne Synthétiser les tendances d opinion Fouille de forum internet 30

Prototype Fouille de forum internet 31

Prototype Discussion Analysis Tool Visualisation Navigation Mesures/Critères Fouille de forum internet 32

Demonstration DEMONSTRATION Discussion Analysis Tool Titre : NATO jets bomb fuel tankers; Afghans say 70 killed Messages : 228 Internautes : 118 Opinion Mining : SentiWordNet (A. Esuli and F. Sebastiani) Fouille de forum internet 33

Conclusion - Contributions Modèle et Mesures Proposition d un nouveau modèle Proposition de mesures pour l extraction de connaissances Recommandation Critères Evaluation Prototype Multilingue Plugins pour la fouille de textes et d opinions Fouille de forum internet 34

Perspectives Modèle Combinaison des modèles (réseaux sociaux et graphes de type PROG) Evolution de l'opinion Mesures Structure Recherche automatique des liens entre les messages Un message peut répondre à plusieurs messages Recommandation Personnalisation explicite / implicite Considérer un critère basé sur PageRank Fouille de forum internet 35