PRÉSENTATION DU PROJET IMAGIWEB

Documents pareils
Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

Newsletter Harris Interactive

I. PRESENTATION DE LA CHAIRE

Compte rendu de l intervention de Jean-Louis LACOMBE. Rencontre européenne de la technologie du 23 mars La Fondation d entreprise EADS

ISFA INSTITUT DE SCIENCE FINANCIÈRE ET D ASSURANCES GRANDE ÉCOLE D ACTUARIAT ET DE GESTION DES RISQUES

Autonomie et fragilités de la recherche académique Financements sur projet et reconfigurations du travail scientifique

Les défauts et «fautes impardonnables» des candidats à l élection présidentielle

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

FD/YMC N Contacts IFOP : Frédéric Dabi / Yves-Marie Cann POUR

TRANSPORT ET LOGISTIQUE :

IAB France Études fil rouge Vague 2 Internet et la téléphonie mobile

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Comment faire parler les chiffres

Le ranking de Augure Influencers La méthodologie AIR en détails

Mon métier, mon parcours

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

«Netscope Présidentielle 2012»

Barack Obama a gagné la bataille... sur les médias sociaux aussi!

Le Baromètre Politique Français ( )

SÉNAT PROPOSITION DE LOI

Les conditions de fiabilité des études online

Enregistrement et transformation du son. S. Natkin Novembre 2001

MATHEMATIQUES ET SCIENCES POUR L INGENIEUR

Sites internet des partis politiques, Facebook et Twitter : Les grands perdants de l élection présidentielle 2012

NetObserver Europe. TOUT SAVOIR SUR LES INTERNAUTES Communiqué de presse Paris, Septembre 2008

E-ASSURÉS RECHERCHE LE PROFIL DES PERSONNES ASSURANCE SANTÉ DES A LA SUR INTERNET D UNE PUBLIÉ PAR. 23 e ÉDITION

Observatoire Economique et Statistique d Afrique Subsaharienne

INFORMATIONS DECISIONS ACTIONS. Entreprises Informations Décisions Actions État des ventes Prévisions Comportement consommateur. Augmenter 20 % le CA

Présentation du projet Smart Electric Lyon

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

INF6304 Interfaces Intelligentes

Le monitoring des médias

Le Cadre Européen des Certifications: les principaux défis. Manuela Bonacci Roma, le 9 juin 2010

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

COMMUNIQUE DE PRESSE. Après l entourage, Internet est le media le plus influent sur la consommation des internautes français.

Les bonnes résolutions

LE VOTE HOMMES/FEMMES AU PREMIER TOUR DE LA PRÉSIDENTIELLE 2007 Effets de genre, effets de génération?

SIMULATION ELECTORALE

MODÈLE CROP DE CALIBRATION DES PANELS WEB

L auto-archivage en maths, quoi de neuf?

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Présentation de la session 2015 du Master de deuxième niveau

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Table des matières. 1. Le projet Ina Global, la revue de tous les médias Présentation générale 1.2. Ligne éditoriale 1.3. Direction artistique

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Diplôme Universitaire CONSEILS EN GESTION DU PATRIMOINE

Master international de Management des Médias à distance. Organisation pédagogique de la formation

Sondage web sur la démocratie et la participation citoyenne

L information des Français vis-à-vis du nucléaire pour

DUT Statistique et Traitement Informatique des Données (S.T.I.D.)

DÉCISIONS À PRENDRE AVANT DE COMMENCER

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

INTERNET, C'EST QUOI?

Le Groupe Yves Rocher

Internet & la recherche marketing : état des lieux. Présenté par Raymond Cyr Fondateur VOXCO

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

We make your. Data Smart. Data Smart

En bref 1 - STRATÈGES EN RÉPUTATION 2 - UNE OFFRE SUR MESURE 3 - DIRIGEANTS

Secteur bancaire Enjeux d image

RAPPORT DE TRANSPARENCE ORCOM SCC

Sondage national auprès des primo-votants à l élection présidentielle 2012

LES DONNÉES CLIENTS APPLIQUÉES À LA MOBILITÉ : ENJEUX, ÉVOLUTIONS ET ACTIONS

Sondage Politique provinciale Campagne électorale Rapport étude quantitative. 15 mars 2014

OBSERVATOIRE DU REGROUPEMENT DE CREDITS - Sondage PollingVox pour Bourse des Crédits -

FICHE 13 RESUME DESCRIPTIF DE LA CERTIFICATION (FICHE REPERTOIRE)

Fil conducteur du protocole de réalisation

Gauthier, Benoît (dir.) Recherche sociale : de la problématique à la collecte des données. Québec : Presses de l Université du Québec.

Quels enseignements de l expérience française ( )

Les Français et les complémentaires santé

Réunion du cluster Habitat Bâtiment Intelligent (HBI) 17 Mars 2014 L I NTELLIGENCE ENERGÉTIQUE

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Collecter des informations statistiques

Master professionnel Communication des organisations Communication publique et politique

Booster son e-réputation : quels sont les enjeux pour son entreprise? Gauthier Blin

Université d Automne en Economie Autrichienne - 2ème édition à Troyes du 5 au 7 octobre

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

10 QUESTIONS/RÉPONSES POUR DEVENIR INCOLLABLE SUR LES SONDAGES

APPEL À MANIFESTATION D INTÉRÊT

Observatoire ING DIRECT

RÉSULTATS DE LA 1ÈRE SÉRIE D ENQUÊTES AFROBAROMÈTRE AU TOGO 3e Dissemination 26 Juin 2013

à Master professionnel Enquête sur le devenir au 1 er décembre 2013 des diplômés de Master professionnel promotion 2011

*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*

MATHÉMATIQUES ET SCIENCES HUMAINES

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Accélérer l agilité de votre site de e-commerce. Cas client

MATHÉMATIQUES. Mat-4104

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Fiche pour les étudiants «Comment répondre à une question à développement?»

ISTEX, vers des services innovants d accès à la connaissance

Mise à disposition d une plateforme de veille et d analyse sur le Web et les réseaux sociaux

Le revenu et le pouvoir d achat

Annonces internes SONATRACH RECHERCHE POUR SON ACTIVITE COMMERCIALISATION :

L entreprise idéale de demain Entre idéalisme et pragmatisme. 23 avril 2013 Hédiard Madeleine Petit-déjeuner Presse

LES RÉFÉRENTIELS RELATIFS AUX ÉDUCATEURS SPÉCIALISÉS

Transcription:

PRÉSENTATION DU PROJET IMAGIWEB COMMENT ANALYSER LES DYNAMIQUES D OPINION SUR LE WEB 2.0? Julien VELCIN et Julien BOYADJIAN Journées d étude «Etudier le Web politique : Regards croisés» Lyon, le 12 mai 2015 1

SOMMAIRE PRESENTATION GENERALE DU PROJET IMAGIWEB Présentation des partenaires Objectifs généraux du projet ELABORATION D ALGORITHMES AUTOMATIQUES D ANNOTATION Mise en place d une grille d annotation des tweets Algorithmes d annotation automatique Agrégats d opinion et dynamique temporelle QUESTION DE LA REPRESENTATIVITE SOCIOLOGIQUE DES OPINIONS NUMERIQUES Twitter, un instrument prédictif de l opinion? Questions de recherche Constitution du panel Présentation du panel 2

PRÉSENTATION GÉNÉRALE DU PROJET IMAGIWEB 3

PRÉSENTATION DES PARTENAIRES ImagiWeb est un projet scientifique pluridisciplinaire (informaticiens, sociologues et sémiologues) financé par l Agence Nationale de la Recherche (ANR) pour une durée de 42 mois (avril 2012 septembre 2015). ImagiWeb réunit six partenaires, trois laboratoires universitaires et trois partenaires privés : ERIC Équipe de Recherche en Ingénierie des Connaissances (informaticiens spécialistes en data mining) CEPEL Centre d Études Politiques de l Europe Latine (politistes) LIA Laboratoire Informatique d'avignon (informaticiens spécialistes en fouille d opinion) AMI Software (éditeurs de logiciel en veille sur Internet) XEROX Research Centre Europe (informaticiens spécialises en traitement automatique des langues) EDF R&D France (informaticiens, sémiologues) 4

OBJECTIFS GÉNÉRAUX DU PROJET ImagiWeb a donc pour originalité de réunir des chercheurs en SHS et des informaticiens autour d un projet de recherche commun. Le projet consiste à étudier l'image d'entités de diverses natures (entreprises, hommes politiques, etc.) telle qu'elle est émise et perçue sur Internet sur deux cas d étude : hommes politique (tweets) et l entreprise EDF (blogs). Deux défis majeurs : Détecter de manière automatique l image des entités (tonalité et cible) et leur évolution dans le temps Mesurer la représentativité sociologique des opinions émises sur Internet à propos des entités étudiées 5

ALGORITHMES AUTOMATIQUES D ANNOTATION DE LA TONALITE ET DE LA CIBLE DE L OPINION DANS LES MESSAGES 6

MISE EN PLACE D UNE GRILLE D ANNOTATION DES TWEETS Chaque tweet de la base de données online est codé à partir de trois variables : 1. Entité visée : François Hollande ou Nicolas Sarkozy dans notre cas d étude 2. Tonalité du message : selon 6 modalités (très positif positif neutre négatif très négatif ambigu) ou 3 modalités (positif neutre négatif) 3. Cible du message : ce sur quoi porte le message : attribut, bilan, compétence, injonction, performance communicationnelle, personne, positionnement, projet et entité. 7

ALGORITHMES D ANNOTATION AUTOMATIQUE Algorithmes hybrides de classification automatique : - extraction de caractéristiques (features) - mots, n-grams - polarités à priori (seed lists) - négation - entités nommées - hashtags (avec décomposition) - classification automatique avec plusieurs méthodes : - régression logistique (avec régularisation L2) - k plus proches voisins (mesure TFxIDF modifée) - etc. - combinaison linéaire des classifieurs 8

AGRÉGATS D OPINION ET DYNAMIQUE TEMPORELLE Un agrégat = un ensemble d internautes aux opinions similaires François Hollande Entité Attribut Injonction Positionnement Performance Personne Compétence Ethique Bilan Projet 20 50 90 1 agrégat de 254 util. (avant l élection) polarité ++ + o - - - 9

PROBLÉMATIQUE DE LA REPRÉSENTATIVITÉ SOCIOLOGIQUE DES OPINIONS NUMÉRIQUES 10

TWITTER, UN INSTRUMENT PRÉDICTIF DE L OPINION? Dans le champ académique, des études établissent des corrélations entre analyse de tweets et phénomènes sociaux offline : résultats du box-office (ASUR et HUBERMAN, 2010), cours de la bourse (BOLLEN, MAO, ZENG, 2010) ou encore résultats électoraux (TUMASJAN et al., 2010 ; O CONNOR et al., 2010 ; JUNGHERR, 2011). Selon TUMASJAN et al., Twitter serait prédictif des résultats électoraux => corrélation entre nombre de tweets pour un parti politique (ou un candidat) et son score final dans les urnes. Dans la plupart des recherche, le volume de messages est d avantage prédictif que la tonalité des messages (JUNGHERR, 2014). 11

QUESTIONS DE RECHERCHE 1. Dans le cas français, existe-t-il une corrélation statistique entre le volume de tweets concernant François Hollande et Nicolas Sarkozy et leurs courbes de popularité dans les sondages d opinion? 2. Si une telle corrélation est avérée, comment l expliquer, étant donné l absence de représentativité sociologique de Twitter? 3. La popularité d un homme politique (exemple : F. Hollande) au sein d un électorat précis (exemple : électorat socialiste) est-elle la même sur Twitter et dans les sondages? 12

PROTOCOLE DE RECHERCHE : PANÉLISER UN ÉCHANTILLON REPRÉSENTATIF DE TWITTOS Dans les travaux académiques, codage (automatique et/ou manuel) des tweets sur des bases de données exhaustives (plusieurs millions de tweets). Problèmes méthodologiques : 1. Ne tient pas compte des très importantes inégalités de publication par individu 2. Ne tient pas compte des caractéristiques sociologiques et politiques des auteurs des messages 13

CONSTITUTION DU PANEL REPRÉSENTATIF Le principe : 1. Sélectionner un échantillon aléatoire (et donc statistiquement représentatif) de twittos politiques 2. Administrer à ces twittos un court questionnaire comprenant une vingtaine de questions socio-démographiques et de préférence politique (seule interaction des enquêtés avec le chercheur) 3. Archiver la totalité des tweets publiés par ces twittos à l aide du logiciel AMI Opinion Tracker du partenaire AMI Software Un double intérêt : 1. Permet de conserver le principal attrait heuristique des tweets : production de verbatims non suscitée par une interaction de recherche 2. Tout en étant en mesure de qualifier socialement et politiquement les messages collectés 14

CONSTITUTION DU PANEL REPRÉSENTATIF Recension exhaustive des tweets citant au moins l un des dix candidats à la présidentielle du 1 er au 31 mars 2012 (période de forte politisation des débats) : plus de 2 800 000 tweets archivés, 248 628 comptes uniques À partir de cette base de donnée initiale, sélection d un échantillon aléatoire de 10 300 comptes auxquels nous nous sommes abonnés et avons proposés de répondre à un questionnaire 608 individus (6,3% des comptes) ont accepté de répondre au questionnaire et de participer au panel Un échantillon de 628 «non-répondants» a été sélectionné et analysé «manuellement» (à partir des diverses informations figurant sur les descriptions de profil : sexe, âge, activité, etc.) 15

SOCIOLOGIE DU PANEL REPRÉSENTATIF Une population masculine (58,1%) et jeune (âge médian : 26 ans). Une forte surreprésentation des étudiants et des cadres. 16

SOCIOLOGIE DU PANEL REPRÉSENTATIF Une population très fortement politisée : 56% des répondants s intéressent «beaucoup à la politique» (contre 21% des Français source CEVIPOF) Des twittos significativement plus à gauche que la moyenne des Français. 17

CONSTITUTION DE LA BASE DE DONNÉES ONLINE Le principe : comparer terme à terme les côtes de popularité des hommes politiques mesurées par les sondages (baromètres mensuels) avec la tonalité des tweets issus de nos trois panels. Période d analyse : janvier 2012 décembre 2013 (2 ans, 24 mois). Unité de mesure : % de tweets positifs et négatifs pour chaque homme politique (François Hollande et Nicolas Sarkozy), chaque mois. 18

MERCI! 19