Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

Documents pareils
Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Consultants, trouvez de nouveaux marchés grâce aux médias sociaux animé par Valérie March au Salon des micro- entreprises 2012

Présenta6on Isatech. ERP, Décisionnel, Architecture Systèmes & Réseaux. Isatech Tous droits réservés Page 1

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Baromètre Direct Assurance des cyberconsommateurs

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Speed up your business

Le réseau social des professionnels de la presse pro. Publiez vos articles auprès des professionnels de la presse pro

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Réunion de rentrée Licence PER Programma3on en environnement répar3. Année universitaire

Dysplasie osseuse. Groupe hétérogène de maladies géné%ques 440 types individuellement très rares Manifesta%ons possibles :

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

Emergence du Big Data Exemple : Linked Open Data

Anticiper et prédire les sinistres avec une approche Big Data

Les défis statistiques du Big Data

Introduction au Data-Mining

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Les datas = le fuel du 21ième sicècle

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

#GoSocial. solutions de marketing communautaire & social crm

Les réseaux sociaux et le mobile au service de l industrie du tourisme digital

TRAVAUX DE RECHERCHE DANS LE

Hervé Couturier EVP, SAP Technology Development

Comment u)liser les réseaux sociaux?

Les Organisa+ons Non- Gouvernementales et les réseaux sociaux

Enjeux mathématiques et Statistiques du Big Data

Emergence du Big Data Exemple : Linked Open Data

Évolu>on et maintenance

Sites Internet : les. tendances. Jeudi 30 janvier 2014 Bordeaux L AGENCE CONNECTÉE À L ENTREPRISE

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

CATALOGUE DES OFFRES 2014

Entreprise et Big Data

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Knowledge Management D. Chauvel, 13 Novembre Journée Mondiale de la Qualité Université Aix Marseille

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les 10 étapes clés pour trouver des clients par internet

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Les bases du SEO (référencement naturel)

Programme «INVESTISSEUR»

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Dive Center Manager. Outil de gestion clients pour Centre de plongée

Big$data,$le$Web$et$tout$ça $ De$quel$volume$parleDton$?$ Surcharge$d informa>on$ Introduction à la fouille de texte Master Informatique 1 ère année

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

Les formations. calipia. novembre 2014 à mai 2015

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

Des Big Data aux Big Brothers Jean- Gabriel Ganascia Equipe ACASA LIP6 Université Pierre and Marie Curie Labex OBVIL PRES Sorbonne Université

SEO : COMMENT CONSTRUIRE UNE STRATEGIE DE LINKING LICITE ET DURABLE?

Tables Rondes Le «Big Data»

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

La démarche Omnicanal Outils d'aide à l'amélioration de l'expérience client Avec le partenaire SKema Alumni

Gérer son image en ligne : besoin réel ou nombrilisme? Albéric Guigou & Juliette Descamps Reputation Squad

INTERNET, C'EST QUOI?

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

FORUM CETO 2012 SOCIAL MEDIA & TOUR-OPERATING. Anne-Servane LASSERRE Marketing Director contact@milky.fr

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Tablettes dans l éducation. Retours d expérimentation et éléments d industrialisation

Catalogue de FORMATIONS 2015

SEO perspec(ves Novembre 2013

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

Qui sommes nous? Partie 1

Big data* et marketing

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Big Data et Statistique Publique

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Introduction au datamining

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

PRÉSENTATION DES RÉSULTATS DU LIVRE BLANC BIG DATA

PROMOUVOIR SON ASSOCIATION GRACE AUX RESEAUX SOCIAUX

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Open Data. Enjeux et perspectives dans les télécommunications

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

Ingénierie et gestion des connaissances

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

RI sociale : intégration de propriétés sociales dans un modèle de recherche

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Jean-François Boulicaut & Mohand-Saïd Hacid

DAY 2 #HUBMWC TRENDS MOBILE WORLD CONGRESS HUBinstitute.com

RÉSEAUX SOCIAUX & BTOB

Convergence de A à Z 10000

Transcription:

Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux Julien Velcin Laboratoire ERIC hup://mediamining.univ- lyon2.fr/velcin 3 ème Séminaire recherche informa.que/ informa.on médicale Big Data à l'hôpital : retour d'expériences et perspec.ves Vendredi 3 Juillet 2015 - Hôpital Saint Louis, Paris

Ecosystème du laboratoire ERIC Axe Carrés 2 ter Académiques Licence, Master, Doctorat 2 équipes : SID & DMD BI, math appli, data mining Entreprises 2

Plan de l exposé Par.e I : Web et Science des données Par.e II : Analyse de l opinion Par.e III : Quels ou.ls pour la fouille? 3

PARTIE I : WEB ET SCIENCE DES DONNÉES

Un déluge de données 36M de pages 20 milliards de photos partagées jusqu à aujourd hui 1,28 milliards u.lisateurs ac.fs + de 50M pages 255M u.lisateurs ac.fs 500M tweets (par jour) 50 milliards de pages indexées 60M ar.cles 61M commen- taires (par mois) 125 emails prof. envoyés / reçus (par jour) in 187M u.lisateurs ac.fs 44k candidatures (par jour) +1 milliards d u.lisateurs 100h de vidéo ajoutées (par minute) 40M u.lisateurs ac.fs 5

Et ce n est pas fini De plus en plus de données numériques : Source IDC, cité dans The Economist en 2011 1 zeuabyte = 1 000 000 000 000 000 000 000 byte 6

Science des données A la convergence de nombreux domaines : Informa.que Mathéma.ques, sta.s.ques Intelligence ar.ficielle Informa.on et communica.on, linguis.que Comment valoriser toutes ces données? extraire, stocker, maintenir explorer, analyser, visualiser valider et acquérir des connaissances u.liser ces connaissances 7

Fouille des données complexes Adapter les approches existantes car : Volume important de données Variété des données (texte, structure, image, etc.) Vélocité des données etc. Pour les données textuelles : saut séman.que entre la forme et le fond la langue est variée et vivante malédic.on de la dimension 8

Représenter et comparer des textes Mul.ples façons de représenter des textes : Bag- Of- Words (BOW), Vector Space Model (VSM) Représenta.ons enrichies avec des méta- données (ex. : catégories gramma.cales, en.tés nommées) Représenta.on par des arbres syntaxiques Représenta.on plus complexe (graphes ) Comparer deux textes : Comparer des vecteurs (cf. travaux récents de «plongement de mots» = word embedding) Comparer des arbres, des graphes 9

Vector Space Model (VSM) (Salton, 1989) Représenta.on la plus u.lisée aujourd hui Approche de type BOW Texte = vecteur dans un espace à n dimensions n = nombre de termes Les termes sont en général pondérés 10

PARTIE II : ANALYSE DE L OPINION

Du rôle des médias (Lippmann,1922) 12

Et à l ère d Internet? 13

Quelle image au sujet de? Eurobaromètre Spécial 303 / Vague 70.1 TNS Opinion & Social Produits : livre, film, imprimante Entreprises : Google, EDF, MacDonald Personnes : célébrité, homme poli.que Evénements : tremblement de terre, guerre Idée, ques.on de société, sens de la vie 14

Influence des réseaux sociaux sur la primaire américaine de 2008 (Williams et Gula., 2008) 15

Les médias sociaux comme baromètres Volume prodigieux de données à moissonner : 1,23 milliards de comptes Facebook 241 millions d u.lisateurs de TwiUer, produisant un million de messages par heure en moyenne des milliers de sites Web d informa.on, de blogs Quelques exemples de tweet : «Geste fort du président #Hollande qui par.cipera ce jeudi à la journée des mémoires, de la traite, de l'esclavage et de leurs aboli.ons.», «Le discours de Hollande à Marseille? Incantatoire et incohérent selon Ciox», «Pour moi, il n'y a qu'un seul Président de l'ump face à qui personne n'ose se présenter: Nicolas #Sarkozy. AUendons le!» 16

Prédire avec TwiUer? Succès pour prédire les résultats au box office (Asur and Huberman, 2010), l évolu.on d une épidémie (McIver and Brownstein, 2014), mais aussi ceux des élec.ons de 2009 en Allemagne (Tumasjan et al., 2010) Mais d autres voix s élèvent pour contrarier les op.mistes, voir (O'Connor et al., 2010), (Metaxes et al., 2011), (Mejova et al., 2013) 17

Analyse de l opinion à travers les médias sociaux, oui mais hétérogènes Video/picture sharing Opinion sharing Blogs volumineux contenu textuel incomplets, imprécis, non fiables Microblogging Social Networks News websites MMO, Social gaming, virtual worlds Knowledge sharing interconnectés dynamiques 18

PARTIE III : OUTILS DE FOUILLE DES DONNEES COMPLEXES

Fouille des données Extraire des connaissances u.les (pépites) à par.r des données Probléma.ques : Extrac.on, stockage des données Représenta.on, indexa.on Analyse des données Evalua.on, visualisa.on Prise de décision 20

Pour les données textuelles Extrac.on, stockage des données : è Comment gérer l hétérogénéité des formats? è Quelle structure de stockage? Représenta.on, indexa.on : è Quelle est la meilleure représenta.on? è Comment indexer les données de manière efficace? Analyse des données : è Comment comparer des données textuelles? è Quels algorithmes choisir? 21

Approches en fouille de données Approches guidées par le haut : recherche d informa.on, classifica.on, régression Approches exploratoires : agréga.on, résumé, extrac.on de tendances Méthode phare : l appren.ssage automa.que apprendre à par.r d observa.ons et faire de l inférence ex. : détec.on de spam, filtrage parental, typologie des clients, ges.on de la réputa.on 22

Prédic.on des opinions Qu est- ce qu une opinion? «Cet acteur est décidément très fort!» «I would prefer a lighter camera» Appliquée aux données issues des médias sociaux : blogs, forums, tweets Récemment employée pour : résumer le sen.ment envers des produits prédire les résultats au box office prédire les résultats électoraux 23

Difficulté d analyser l opinion Messages courts (importance du contexte) Langue vivante : abrévia.ons, argot, néologismes, fautes de français Hétérogène : présence d urls, images, mots clefs et hashtags, etc. Circonlocu.ons, humour, ironie Opinion qui varie dans le temps 24

Classifier pour prédire les opinions Contribu.on : améliorer une classifica.on Naive Bayes avec des connaissances à priori Seed lists : adorer, avantage, abordable, u.le inconvénient, désarroi, gâcher, mécontent Par.cipa.on à Sem- Eval@NAACL 2013 6/35 et 3/16 sur le jeu de données officiel (tweets) Quelques résultats : (Dermouche et al., 2013) 25

Merci!

Références (extrait) (Dermouche et al., 2013) AMI&ERIC: How to Learn with Naive Bayes and Prior knowledge: an Applica.on to Sen.ment Analysis, SemEval@NAACL 2013. (Dermouche et al., 2014) A Joint Model for Topic- Sen.ment Evolu.on over Time, ICDM 2014. (McCombs and Shaw, 1972) The agenda- sexng func.on of mass media. Public opinion quarterly, 36 (2): 176 187, 1972. (McIver and Brownstein, 2014) Wikipedia Usage Es.mates Prevalence of Influenza- Like Illness in the United States in Near Real- Time, PLoS computa.onal biology, 2014. (Mejova et al., 2013) GOP primary season on twiuer: popular poli.cal sen.ment in social media, WSDM 2013. (Tumasjan et al., 2010) Predic.ng Elec.ons with TwiUer: What 140 Characters Reveal about Poli.cal Sen.ment, ICWSM 2010. (Velcin et al., 2014) Inves.ga.ng the Image of En..es in Social Media: Dataset Design and First Results, LREC 2014. (Williams and Gula., 2008) What is a social network worth? Facebook and vote share in the 2008 presiden.al primaries, Annual Mee.ng of the American Poli.cal Science Associa.on, vol. 54, 2008. 27