OPITER : Fouille de données d opinion pour les territoires



Documents pareils
OPITER : Fouille de données d opinionpour les territoires

Laboratoire 4 Développement d un système intelligent

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

DEFT 09 : détection de la subjectivité et catégorisation de textes subjectifs par une approche mixte symbolique et statistique

Introduction au Data-Mining

Entreposage de données complexes pour la médecine d anticipation personnalisée

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Apprentissage Automatique

Trois approches du GREYC pour la classification de textes

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Analyse d opinions de tweets par réseaux de neurones convolutionnels

Sélection de Caractéristiques pour le Filtrage de Spams

VERS UNE CARACTÉRISATION AUTOMATIQUE DE CRITÈRES POUR L'OPINION-MINING

OLAP : Mondrian + Pentaho. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Data Mining. Master 1 Informatique - Mathématiques UAG

N. Paparoditis, Laboratoire MATIS

Le Traitement Automatique des Langues en France à l ère du Big Data

Cognit Ive Cas d utilisation

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Apprentissage Automatique pour la détection de relations d affaire

Analyse de grandes bases de données en santé

Analyse des réclamations d allocataires de la CAF : un cas d étude en fouille de données

Langue Française. Syllabus A1. Description globale du niveau A1 utilisateur élémentaire

INF6304 Interfaces Intelligentes

TEXT MINING Tour d Horizon

Spécificités, Applications et Outils

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les défis du traitement automatique du langage pour l analyse des réseaux sociaux

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Le cinquième chapitre

Application de K-means à la définition du nombre de VM optimal dans un cloud

TEXT MINING ET INTELLIGENCE ECONOMIQUE : AUJOURD HUI ET DEMAIN

PROJET DE FIN D ETUDES

Classification Automatique de messages : une approche hybride

Introduction au Data-Mining

TRAVAUX DE RECHERCHE DANS LE

Université Kasdi Merbah Ouargla Vice Rectorat de la Formation Supérieure, de la Formation Continue et des Diplômes

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Introduction à la Fouille de Données (Data Mining) (8)

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Les défis de l analyse des réseaux sociaux pour le traitement automatique des langues

La Convergence des outils de veille et des sources

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Traitement bas-niveau

Ressources lexicales au service de recherche et d indexation des images

Luc Grivel (*, **)

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Proposition méthodologique pour la détection automatique de Community Manager. Étude multilingue sur un corpus relatif à la Junk Food

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Enrichissement du profil utilisateur à partir de son réseau social dans un contexte dynamique : application d une méthode de pondération temporelle

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Hervé Couturier EVP, SAP Technology Development

Reconnaissance de gestes : approches 2D & 3D

5. Apprentissage pour le filtrage collaboratif

Agenda de la présentation

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Programme GREAT-MED: «Generating a Risk and Ecological Analysis Toolkit for the Mediterranean»

Business Intelligence avec Excel, Power BI et Office 365

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

VISUALISATION DE NUAGES DE POINTS

Summer School * Campus d été *

Visualiser des données.

Méthode de classification des réponses d un moteur de recherche

Introduction au datamining

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Extraction des Connaissances à partir des Données (ECD)

Que signifie être membre du Programme de l OMS pour la pharmacovigilance internationale

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

Semantic Web Inside Guillaume Érétéo Directeur R&D

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Identification de nouveaux membres dans des familles d'interleukines

Infrastructure de Données Spatiales

Architecture logicielle & Étude et réalisation d oralisation de tag clouds pour non-voyants

Application Form/ Formulaire de demande

COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR

SOMMAIRE. Dossier : Aide au suivi du stagiaire

Parcours DIWEB : (Données, Interaction et Web)

Documentation Suivi S.E.O

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

14e édition des Journées francophones EGC Extraction et Gestion des Connaissances

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

La classification automatique de données quantitatives

Didier MOUNIEN Samantha MOINEAUX

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

L évaluation de la qualité d un dispositif d apprentissage en ligne. Quelles traces mobiliser? Comment les interpréter?

Speed up your business

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Transcription:

OPITER : Fouille de données d opinion pour les territoires Sagéo Brest, 2013 Eric Kergosien (TETIS- LIRMM) Pierre Maurel (TETIS) Mathieu Roche (TETIS LIRMM) Maguelonne Teisseire (TETIS LIRMM) 26/09/2013 1

Contexte 26/09/2013 2 Le projet Senterritoire Géographes - Informaticiens Informaticiens à proposer un environnement décisionnel basé sur une analyse automatique des textes liés à l aménagement du territoire

Contexte SENTERRITOIRE 26/09/2013 3 Démarche générale Documents d actualités 1 ère Phase 2 ème Phase Extraction des entités spatiales (Tharat et al., 2013) Identification des opinions La percepoon de l aménagement d un territoire

Sommaire 1. La nooon d opinion 2. Chaine de traitements standard de la communauté 3. L approche OPITER a. Démarche b. Un peot exemple c. ExperimentaOons 4. Conclusion et travaux en cours 26/09/2013 4

26/09/2013 5 Etat de l art Qu entend- on par Opinion? Opinion : négative, positive, neutre Sentiments : joie, tristesse Quelles sont les spécificités des opinions relatives aux informations géographiques et comment les extraire? J aime beaucoup le centre ville de Montpellier et je déteste la plage de Carnon

Etat de l art Chaine de traitements en fouille d opinions Prétraitements Tokenisa;on Suppression des mots vides Lema;sa;on Représentation des textes Type de descripteurs n- grams fixes (unigrams, bigrams, ) n- grams variables (patrons, nega;on, POS, ) pondéraoon Presence Fréquence Tf- idf Eventuellement suppression de descripteurs [Kravchenko 2012] AggrégaOon d opinions pour représentaoon Approches linguisoques pajrons Eventuellement Connaissances externes (lexiques, thésaurus,., ) Identification d orientation sémantique Element polarisé (opinion, sen;ment, texte) [Gezici 2012, Meng 2012, Asiaee 2012] Approches staosoques Classifica;on (SVM, Naïves Bayes, ) Pas de travaux pour la détection d opinions dans l aménagement du territoire Proposition : tester les méthodes classiques pour évaluer nos ressources 26/09/2013 6

Approche OPITER 26/09/2013 7 SENT_150 Data 150 articles du Midi libre organisés en deux classes par notre équipe (positifs et négatifs) SENT_100 99 Articles du Midi libre depuis 2006, organisés en deux classes par les experts géographes (positifs et négatifs) 3 corpus DEFT 300 extraits d un débat parlementaire de l Assemblée nationale; 1000 Critiques de jeux vidéos; 1500 critiques de films. Ressources Lexicons General Inquirer Version française (Bestgen 2011), 1246 mots positifs et 1527 mots négatifs LIWC Version française (Piolat and al. 2011), sélection des termes positifs et négatifs Jeux de mots (JDM) 9653 mots positifs et 6700 mots négatifs en français

Approche OPITER 26/09/2013 8 Premières expérimentaoons pour tester les lexiques d opinion Corpus Ensemble des 3 lexiques (GI, LIWC, JDM) Classification à partir de Weka Filtres pour ne garder que les descripteurs opinions Approche sacs de mots frequence S- idf Okapi Naive Bayes, DMNBtext, Résultats de classification DMNBtext SENT_10 0 SENT_15 0 DEFT_300 JV_1047 AVAL_1459 51.51% 56% 86.3% 93.65%" 90.13%" PondéraOon des mots d opinions 49.49% 54% 86.66% 93.95%" 88.21%" Approchaes classiques pas adaptées pour un corpus de petite/moyenne taille relatif à l aménagement du territoire Pas d amélioration des scores en donnant plus de poids aux lexiques d opinion

Approche OPITER Démarche générale 3. Identification des descripteurs représentatifs de polarité du domaine 2. Prise en compte du contexte des opinions pivots Corpus Senterritoire General Vocabulaire d opinions Vocabulaire d opinions Vocabulaire d opinion pivots généraliste VPOG contextualisé VOC spécialisé VOS Inquire 1. Identification du lexique d opinions pivots LIWC JeuxDeMots Intersection de lexiques d opinion 26/09/2013 9

Approche OPITER Exemple 26/09/2013 10

26/09/2013 11 Approche OPITER ExtracOon des mots polarisés relaofs au domaine Attribution d un score d opinion par document pour évaluation Nettoyage (on ne garde que les noms communs, adjectifs, verbes et adverbes)

Approche OPITER 26/09/2013 12 ExtracOon des mots polarisés relaofs au domaine GeneralInquirer LIWC JeuxDeMots = S 1 ; GeneralInquirer LIWC = S 2 ; GeneralInquirer JeuxDeMots = S 3 ; LIWC JeuxDeMots = S 4 ; GeneralInquirer = S 5 : Mots du GeneralInquirer distincts des autres lexiques ; LIWC = S 6 : Mots du LIWC distincts des autres lexiques ; JeuxDeMots = S 7 : Mots du JeuxDeMots distincts des autres lexiques. Corpus GI LIWC JDM Evaluation du vocabulaire d opinions pivots généraliste pour la classification de textes

Approche OPITER 26/09/2013 13 ExtracOon des mots polarisés relaofs au domaine ScoreMot(MotPivot) ScoreMotVoisin(Mot)= d MotsPivots Corpus GI LIWC JDM Evaluation du vocabulaire d opinions contextualisé regroupant opinions pivots et mots voisins

Approche OPITER 26/09/2013 14 ExtracOon des mots polarisés relaofs au domaine Identification d un vocabulaire spécialisé par filtrage et pondération Corpus GI LIWC JDM Résultats obtenus par validation croisée (4 blocs)

Approche OPITER ExtracOon des mots polarisés relaofs au domaine 3. Identification des descripteurs représentatifs de polarité du domaine 2. Analyse du contexte des mots pivots 1b. Evaluation de l intersection Corpus Vocabulaire d opinions Vocabulaire d opinions General pivots généraliste contextualisé Inquirer Vocabulaire d opinion spécialisé LIWC JeuxDeMots 1a. Sélection des opinions pivots Corpus Score de classificaoon General Inquirer Vocabulaire généraliste Vocabulaire contextualisé Vocabulaire spécialisé SENT_100 57.5%" 64.6% 65.6% 91.9% 26/09/2013 15

26/09/2013 16 Approche OPITER ExpérimentaOons sur d autres jeux de données A partir d approches classiques par apprentissage supervisé A partir des lexiques d opinions A partir de l approche OPITER

Conclusion Travaux réalisés : ExpérimentaOon d approches classiques pour la classificaoon de corpus relaofs à l aménagement d un territoire Méthode OPITER semi- automaosée pour la construcoon d un vocabulaire d opinions spécialisé relaof à l aménagement d un Difficultées : Ressources françaises Complexité (hétérogénéité) des données territoriales Travaux en cours : IdenOfier et qualifier les liens entre enotés spaoales et opinions IdenOfier l intensité des opinions 26/09/2013 17

Conclusion 26/09/2013 18 Eric Kergosien

Conclusion 26/09/2013 19 ApplicaOon to visualize opinions about geospaoal enooes on a map

References Soo- Min Kim and Eduard Hovy. Determining the sen;ment of opinions. In Proceedings of the 20th interna;onal conference on Computa;onal Linguis;cs - COLING '04, pages 1367es, Morristown, NJ, USA, August 2004. Associa;on for Computa;onal Linguis;cs. Pak, A. (2012). Automa;c, Adap;ve, and Applica;ve Sen;ment Analysis. University of Paris- Sud. Retrieved from hjp://hal.upmc.fr/tel- 00717329/ Piolat, A., Booth, R. J., Chung, C. K., Davids, M., & Pennebaker, J. W. (2011). La version française du LIWC : modalités de construc;on et exemples d applica;on. Psychologie française, 56, 145-159. Bestgen, N. V. Y. (n.d.). Iden;fica;on de mots germes pour la construc;on d un lexique de valence au moyen d'une procédure supervisée. 2011. Gizem Gezici, Berrin Yanikoglu, Dilek Tapucu, Y. S.New Features for Sen;ment Analysis: Do Sentences MaJer? Proceedings of the 1st Interna;onal Workshop on Sen;ment Discovery from Affec;ve Data (SDAD 2012), In conjunc;on with ECML- PKDD 2012 Meng, X., Wei, F., Liu, X., Zhou, M., Li, S., & Wang, H. En;ty- centric topic- oriented opinion summariza;on in twijer. Proceedings of the 18th ACM SIGKDD interna;onal conference on Knowledge discovery and data mining - KDD 2012 Asiaee T., A., Tepper, M., Banerjee, A., & Sapiro, G.If you are happy and you know it... tweet. Proceedings of the 21st ACM interna;onal conference on Informa;on and knowledge management - CIKM 2012 (p. 1602). New York Kravchenko, A. Mining for Opinions Across Domains: A Cross- Language Study. Proceedings of the 1st Interna;onal Workshop on Sen;ment Discovery from Affec;ve Data (SDAD 2012), In conjunc;on with ECML- PKDD 2012, Bristol Liu, B. (2012). Sen;ment Analysis and Opinion Mining (p. 167). Morgan & Claypool Publishers. 04/07/2013 20