Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux Julien Velcin Laboratoire ERIC hup://mediamining.univ- lyon2.fr/velcin 3 ème Séminaire recherche informa.que/ informa.on médicale Big Data à l'hôpital : retour d'expériences et perspec.ves Vendredi 3 Juillet 2015 - Hôpital Saint Louis, Paris
Ecosystème du laboratoire ERIC Axe Carrés 2 ter Académiques Licence, Master, Doctorat 2 équipes : SID & DMD BI, math appli, data mining Entreprises 2
Plan de l exposé Par.e I : Web et Science des données Par.e II : Analyse de l opinion Par.e III : Quels ou.ls pour la fouille? 3
PARTIE I : WEB ET SCIENCE DES DONNÉES
Un déluge de données 36M de pages 20 milliards de photos partagées jusqu à aujourd hui 1,28 milliards u.lisateurs ac.fs + de 50M pages 255M u.lisateurs ac.fs 500M tweets (par jour) 50 milliards de pages indexées 60M ar.cles 61M commen- taires (par mois) 125 emails prof. envoyés / reçus (par jour) in 187M u.lisateurs ac.fs 44k candidatures (par jour) +1 milliards d u.lisateurs 100h de vidéo ajoutées (par minute) 40M u.lisateurs ac.fs 5
Et ce n est pas fini De plus en plus de données numériques : Source IDC, cité dans The Economist en 2011 1 zeuabyte = 1 000 000 000 000 000 000 000 byte 6
Science des données A la convergence de nombreux domaines : Informa.que Mathéma.ques, sta.s.ques Intelligence ar.ficielle Informa.on et communica.on, linguis.que Comment valoriser toutes ces données? extraire, stocker, maintenir explorer, analyser, visualiser valider et acquérir des connaissances u.liser ces connaissances 7
Fouille des données complexes Adapter les approches existantes car : Volume important de données Variété des données (texte, structure, image, etc.) Vélocité des données etc. Pour les données textuelles : saut séman.que entre la forme et le fond la langue est variée et vivante malédic.on de la dimension 8
Représenter et comparer des textes Mul.ples façons de représenter des textes : Bag- Of- Words (BOW), Vector Space Model (VSM) Représenta.ons enrichies avec des méta- données (ex. : catégories gramma.cales, en.tés nommées) Représenta.on par des arbres syntaxiques Représenta.on plus complexe (graphes ) Comparer deux textes : Comparer des vecteurs (cf. travaux récents de «plongement de mots» = word embedding) Comparer des arbres, des graphes 9
Vector Space Model (VSM) (Salton, 1989) Représenta.on la plus u.lisée aujourd hui Approche de type BOW Texte = vecteur dans un espace à n dimensions n = nombre de termes Les termes sont en général pondérés 10
PARTIE II : ANALYSE DE L OPINION
Du rôle des médias (Lippmann,1922) 12
Et à l ère d Internet? 13
Quelle image au sujet de? Eurobaromètre Spécial 303 / Vague 70.1 TNS Opinion & Social Produits : livre, film, imprimante Entreprises : Google, EDF, MacDonald Personnes : célébrité, homme poli.que Evénements : tremblement de terre, guerre Idée, ques.on de société, sens de la vie 14
Influence des réseaux sociaux sur la primaire américaine de 2008 (Williams et Gula., 2008) 15
Les médias sociaux comme baromètres Volume prodigieux de données à moissonner : 1,23 milliards de comptes Facebook 241 millions d u.lisateurs de TwiUer, produisant un million de messages par heure en moyenne des milliers de sites Web d informa.on, de blogs Quelques exemples de tweet : «Geste fort du président #Hollande qui par.cipera ce jeudi à la journée des mémoires, de la traite, de l'esclavage et de leurs aboli.ons.», «Le discours de Hollande à Marseille? Incantatoire et incohérent selon Ciox», «Pour moi, il n'y a qu'un seul Président de l'ump face à qui personne n'ose se présenter: Nicolas #Sarkozy. AUendons le!» 16
Prédire avec TwiUer? Succès pour prédire les résultats au box office (Asur and Huberman, 2010), l évolu.on d une épidémie (McIver and Brownstein, 2014), mais aussi ceux des élec.ons de 2009 en Allemagne (Tumasjan et al., 2010) Mais d autres voix s élèvent pour contrarier les op.mistes, voir (O'Connor et al., 2010), (Metaxes et al., 2011), (Mejova et al., 2013) 17
Analyse de l opinion à travers les médias sociaux, oui mais hétérogènes Video/picture sharing Opinion sharing Blogs volumineux contenu textuel incomplets, imprécis, non fiables Microblogging Social Networks News websites MMO, Social gaming, virtual worlds Knowledge sharing interconnectés dynamiques 18
PARTIE III : OUTILS DE FOUILLE DES DONNEES COMPLEXES
Fouille des données Extraire des connaissances u.les (pépites) à par.r des données Probléma.ques : Extrac.on, stockage des données Représenta.on, indexa.on Analyse des données Evalua.on, visualisa.on Prise de décision 20
Pour les données textuelles Extrac.on, stockage des données : è Comment gérer l hétérogénéité des formats? è Quelle structure de stockage? Représenta.on, indexa.on : è Quelle est la meilleure représenta.on? è Comment indexer les données de manière efficace? Analyse des données : è Comment comparer des données textuelles? è Quels algorithmes choisir? 21
Approches en fouille de données Approches guidées par le haut : recherche d informa.on, classifica.on, régression Approches exploratoires : agréga.on, résumé, extrac.on de tendances Méthode phare : l appren.ssage automa.que apprendre à par.r d observa.ons et faire de l inférence ex. : détec.on de spam, filtrage parental, typologie des clients, ges.on de la réputa.on 22
Prédic.on des opinions Qu est- ce qu une opinion? «Cet acteur est décidément très fort!» «I would prefer a lighter camera» Appliquée aux données issues des médias sociaux : blogs, forums, tweets Récemment employée pour : résumer le sen.ment envers des produits prédire les résultats au box office prédire les résultats électoraux 23
Difficulté d analyser l opinion Messages courts (importance du contexte) Langue vivante : abrévia.ons, argot, néologismes, fautes de français Hétérogène : présence d urls, images, mots clefs et hashtags, etc. Circonlocu.ons, humour, ironie Opinion qui varie dans le temps 24
Classifier pour prédire les opinions Contribu.on : améliorer une classifica.on Naive Bayes avec des connaissances à priori Seed lists : adorer, avantage, abordable, u.le inconvénient, désarroi, gâcher, mécontent Par.cipa.on à Sem- Eval@NAACL 2013 6/35 et 3/16 sur le jeu de données officiel (tweets) Quelques résultats : (Dermouche et al., 2013) 25
Merci!
Références (extrait) (Dermouche et al., 2013) AMI&ERIC: How to Learn with Naive Bayes and Prior knowledge: an Applica.on to Sen.ment Analysis, SemEval@NAACL 2013. (Dermouche et al., 2014) A Joint Model for Topic- Sen.ment Evolu.on over Time, ICDM 2014. (McCombs and Shaw, 1972) The agenda- sexng func.on of mass media. Public opinion quarterly, 36 (2): 176 187, 1972. (McIver and Brownstein, 2014) Wikipedia Usage Es.mates Prevalence of Influenza- Like Illness in the United States in Near Real- Time, PLoS computa.onal biology, 2014. (Mejova et al., 2013) GOP primary season on twiuer: popular poli.cal sen.ment in social media, WSDM 2013. (Tumasjan et al., 2010) Predic.ng Elec.ons with TwiUer: What 140 Characters Reveal about Poli.cal Sen.ment, ICWSM 2010. (Velcin et al., 2014) Inves.ga.ng the Image of En..es in Social Media: Dataset Design and First Results, LREC 2014. (Williams and Gula., 2008) What is a social network worth? Facebook and vote share in the 2008 presiden.al primaries, Annual Mee.ng of the American Poli.cal Science Associa.on, vol. 54, 2008. 27