TWITTER : EXTRACTION, REGROUPEMENT ET VISUALISATION POUR LA VEILLE STRATEGIQUE
|
|
- Sabine Dupuis
- il y a 8 ans
- Total affichages :
Transcription
1 TWITTER : EXTRACTION, REGROUPEMENT ET VISUALISATION POUR LA VEILLE STRATEGIQUE Mots clefs : Twitter, Clustering, Visualisation, Veille scientifique et technologique Keywords: Twitter, Clustering, Visualization, Scientific and technical observation Palabras clave : Twitter, Clustering, Visualización, Escudriñar científico y tecnológico Alina STOICA (*), Philippe SUIGNARD (*), Lambert PEPIN (**) alina.stoica@edf.fr, philippe.suignard@edf.fr, lambert-ext.pepin@edf.f (*) EDF, 1, avenue du Général de Gaulle, Clamart Cedex (France), (**) KeyConsulting, 41 rue Emile Duclaux Suresnes (France). Résumé Pour EDF comme pour d autres grandes entreprises, il est essentiel de connaître les opinions et les attentes de ses clients et, pour cela, Internet représente une source de données importante. Parmi les différents sites où les clients s expriment, la plateforme sociale Twitter est particulièrement intéressante grâce à son utilisation en forte croissance, à la facilité d accès à ses contenus ainsi qu à son caractère à la fois média d information et réseau social. Cet article présente une chaine de traitements s appuyant sur Twitter et composée d une série de méthodes et d outils. Grâce à cette chaine, le veilleur pourra analyser les thématiques et les opinions concernant EDF telles qu elles sont exprimées sur ce réseau social. Cette chaine de traitements commence par la collecte des tweets relatifs à EDF, qu il va ensuite falloir filtrer parce que contenant beaucoup de bruit. Ensuite, les contenus «redondants» vont être identifiés et regroupés ensemble au sein de groupes ou «clusters» qui pourront ensuite être visualisés afin de suivre leurs évolutions dans le temps. Pour finir, l article présente les résultats de cette chaine de traitements sur un corpus de tweets relatifs à la thématique EDF récupérés entre mars et juin 2011 et présente des exemples de visualisations de clusters ainsi que de «hashtags». Abstract For EDF as for other big companies, it is essential to be aware of their customers opinions and expectations, and, for that, the Internet represents an important source of data. Among the different sites where customers express themselves, the social platform Twitter is particularly interesting due to its highly growing utilization, to the easy access to its contents and to its status of both information media and social network.
2 This paper presents a Twitter-based processing chain composed of several methods and tools. Due to this chain, analysts will be able to study topics and opinions concerning EDF as they are expressed on the social platform. The processing begins with the collecting of EDF-related tweets from which noisy contents are filtered out. Then, redundant tweets are identified and grouped together into clusters that can be graphically represented in order to follow their time evolution. Finally, the paper presents the results of the processing chain on a dataset of EDF-related tweets that were collected between March and June 2011, along with several graphical representations of clusters and hash-tags. 1 Introduction Dans un contexte de veille concurrentielle et stratégique et dans un souci permanent d améliorer la qualité de sa relation avec les clients, le groupe EDF se doit d être à l écoute de ce qui se dit dans la presse et sur internet en général et plus particulièrement sur les blogs, les forums et sur les réseaux sociaux. Depuis ces dernières années, ceux-ci ont connu un formidable essor et constituent, à ce titre, des sources d informations très importantes. Parmi celles-ci, Twitter occupe une place intéressante pour plusieurs raisons : - il s agit d un réseau social très populaire en France dont le nombre d utilisateurs a connu une augmentation récente très importante ; - de par son format de message court, il oblige les rédacteurs à adopter un style très synthétique tout en leur permettant d inclure des liens vers les sources d origine ; - il est particulièrement bien adapté à la diffusion et à la propagation d information ; - Twitter offre un accès, relativement facile, à ses contenus, ce qui permet de connaître les sujets qui intéressent les utilisateurs ainsi que leurs réactions. Twitter constitue ainsi un support idéal pour contribuer à la veille qu EDF réalise de manière continue. Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur. C est cette phase d outillage que nous décrivons dans la suite de cet article et qui a pour objectif de mettre en place une chaîne de traitements, permettant d analyser «ce qui se dit sur EDF». Dans cet article, nous présentons un ensemble de méthodes et outils qui vont aider l analyste. Cette chaine de traitements commence par la phase de collecte des tweets grâce à l API proposée par Twitter. Nous décrivons d abord une méthode de clustering des tweets quasi-identiques. Cette méthode de «dédoublement» de contenus permet de regrouper les tweets très similaires qui reprennent une même information, rendant ainsi leurs analyses ultérieures plus simples et plus efficaces. Nous continuons avec la présentation d un outil de visualisation de contenus que nous avons mis en place. Cet outil permet de suivre l évolution temporelle des clusters identifiés auparavant, ainsi que d autres paramètres comme, par exemple, les hash-tags. Nous passons ensuite à la présentation du corpus que nous avons collecté et expliquons rapidement les filtrages de données que nous avons effectués. Cette étape est essentielle, les données bruitées pouvant biaiser les analyses, et doit être adaptée aux spécificités du corpus. Nous présentons les résultats obtenus sur le corpus nettoyé : statistiques sur les clusters obtenus, ainsi que des exemples de visualisation de clusters et hash-tags. Enfin, nous concluons l article et évoquons quelques perspectives pour des travaux futurs.
3 2 Le réseau social Twitter 2.1 Présentation générale Comme le présente Wikipédia 1, «Twitter est un outil de réseau social et de microblogage qui permet à l utilisateur d envoyer gratuitement des messages brefs, appelés tweets («gazouillis»), par Internet, par messagerie instantanée ou par SMS. Twitter a été créé en mars 2006 par Jack Dorsey. Le site a très rapidement gagné en popularité, jusqu'à réunir plus de 300 millions d'utilisateurs en 2011». Les utilisateurs de Twitter publient des messages (appelés «tweets») qui sont visibles par tout le monde et qui sont envoyés directement à leurs abonnés appelés «followers». Twitter est surtout utilisé pour la publication d informations, allant d informations d intérêt général (comme les interventions d hommes politiques) à des informations personnelles (cela peut être «je viens de prendre un café»). Les tweets ont quelques spécificités : - ils sont limités à 140 caractères ; - ils peuvent être republiés : une personne A qui reçoit un tweet de la part d une personne B peut le republier (tous les followers de A reçoivent alors le même tweet) ; un tweet republié s appelle un retweet et commence souvent par le texte «RT@ B» ; - ils contiennent fréquemment des URLs ; puisque les tweets sont limités à 140 caractères, les internautes utilisent souvent des services pour «raccourcir» les URLs (bit.ly ou tinyurl.com vont transformer par exemple une URL comme « dans « ; selon [3], 92% des retweets contiennent une URL ; - ils peuvent contenir des hash-tags, c est-à-dire des mots (qui font partie ou non de la phrase, dans ce deuxième cas se trouvant à la fin du tweet) précédés par le symbole # ; les hash-tags sont des étiquettes attribuées par les auteurs des tweets pour caractériser brièvement le sujet du tweet. Ils permettent de retrouver tous les tweets parlant du même sujet à l aide d une recherche par mots clés ; - ils peuvent être adressés à une personne spécifique A (même s ils ne sont pas forcement privés). Ce serait l équivalent de la situation où, pendant une conversation à plusieurs, une personne s adresse à une personne spécifiquement, même si tout le monde entend cet échange. Dans ce cas, le tweet contient le texte «@A» et A est automatiquement informé. Voici quelques exemples de tweets : - : Le compteur #Linky, son fonctionnement et ses avantages expliqués! ; - EDF Energies Nouvelles : Recul des ventes au 1er trimestre, objectifs 2011 confirmés : ; bah si tu économises sur la pellicule, tu te fais 1 pt it magot pour acheter EDF et tu transformes le réseau français en us. 1 - Informations issues du site
4 2.2 Utilisation en forte croissance Le réseau Twitter a connu une forte croissance, comme le montre la figure 1, pour le cas de la France. En mars 2011, on estimait à 2,4 millions le nombre de comptes Twitter localisés en France et selon la dernière étude du cabinet Semiocast 2, la France compte aujourd hui 5,2 millions de comptes Twitter, dont 1,25 million actifs (24%). La France se classe à la 16 ème place mondiale dans un classement dominé par les Etats-Unis, le Japon et le Brésil. Un million de nouveaux comptes ont été créés au 4 ème trimestre De leur côté, les entreprises sont de plus en plus présentes sur Twitter. Après avoir passé la phase leur permettant «d occuper» le terrain, elles utilisent ce canal comme un véritable canal de relation avec leurs clients pour y publier des réponses à des problèmes généraux pouvant intéresser leurs clients. Parmi celles-ci ont citera les banques (Crédit Agricole, Société Générale et autres), les opérateurs télécoms (Orange, SFR, Bouygues, Free), La Poste, La RATP, EDF, GDF-Suez, etc. Le réseau Twitter dispose d une API (en anglais Application Programming Interface) qui permet de chercher et de télécharger des données du réseau. Même si la collecte de données est limitée (en nombre de requêtes par heure par exemple), elle est rendue facile par l existence de l API. Figure 1. Évolution du nombre d utilisateurs de Twitter en France (mars mars 2011), source Semiocast. 2.3 Twitter comme sujet d étude La forte popularité de Twitter et la facilité d accès aux contenus textuels qui y sont publiés offrent d énormes opportunités aux chercheurs en informatique, en sociologie, en traitement automatique de la langue ou en physique. Cela explique le grand nombre d études qui lui sont dédiées et les nombreuses méthodes envisagées pour analyser les tweets. Nous exposons ici quelques travaux réalisés sur Twitter, beaucoup d autres étant présentés dans des articles publiés, ces dernières années, au sein des conférences 3 KDD, CHI, WWW, ICWSM, etc. Plusieurs chercheurs se sont intéressés au caractère événementiel très fort des tweets. Quand un événement est important ou jugé comme tel, il va être tweeté, retweeté, parfois de nombreuses fois. Plusieurs auteurs ont développé des méthodes permettant de détecter les événements dont on parle sur Twitter et de les résumer [4] et [20] ou encore de détecter les tendances [14]. D autres études se sont intéressées à la réputation et l influence des auteurs de tweets en analysant le nombre de followers, de citations et de retweets d un auteur [3], observant que les auteurs les plus influents ne sont pas forcement ceux qui ont le plus de followers. Ces études montrent le caractère de «media d information» de Twitter, les internautes utilisant la plateforme pour publier et diffuser des actualités. Même si dans une moindre proportion qu à son lancement, Twitter est aussi utilisé pour communiquer avec des connaissances et échanger sur des sujets d intérêt personnel, comme dans un
5 réseau social «classique». Dans cette optique, Kwak et al. ont essayé de déterminer le caractère de Twitter : média d information ou réseau social [11]? En analysant les tweets et les profils de tous les comptes Twitter existants au moment de l étude, ils ont découvert des distributions (de followers par exemple) différentes de celles des réseaux sociaux habituels. 3 Regroupement des tweets quasiment identiques 3.1 Enjeux Les tweets sont des contenus textuels assez particuliers, outre leur taille limitée à 140 caractères, de nombreux tweets présentent des textes quasiment identiques. Ceci peut être dû à plusieurs situations : - Un tweet est republié (c est un retweet). Le retweet contient généralement le même texte que le tweet, avec «RT@auteur» ajouté au début (la partie «RT@auteur» peut être enlevée par l auteur du retweet) ; - Plusieurs internautes ont cliqué sur un bouton «publier sur Twitter» présent sur un site externe au réseau. Par exemple, le site lemonde.fr permet aux lecteurs de publier sur Twitter une information (généralement le titre d un article) trouvée sur le site ; dans ce cas, un tweet est publié de la part du lecteur et comprend le titre et le lien vers l article ; - Plusieurs internautes ont vu une même information quelque part (par exemple à la télévision) et ont publié un tweet la reprenant. Il peut s agir du titre d un reportage qui est publié approximativement comme il a été présenté à la télévision. Nous souhaitons regrouper les tweets qui ont un contenu très similaire dans des clusters, chaque cluster étant censé contenir les tweets qui reprennent une même information telle qu elle a été vue dans les médias. Cela faciliterait les analyses en diminuant la quantité d information à traiter, en effet, les études qualitatives ou de traitement automatique de texte pourraient identifier l ensemble des tweets d un cluster avec un représentant unique. Un cluster doit donc comprendre des tweets avec un contenu très similaire ; en plus, les tweets d un même cluster doivent avoir été publiés à des dates assez proches. Cette restriction est imposée pour s assurer de regrouper des tweets qui reproduisent le même fait : un tweet ou un titre de journal ou une information vue à la télévision par exemple. Ces faits ont une date d apparition (publication du journal, émission télé, publication de tweet) et ont une durée de vie assez courte (dans le sens où d autres événements, même si sur le même sujet mais avec un titre et un texte différents, prennent vite leur place dans les médias. Cette approche est différente de la détection d événements ou de tendances présentée précédemment. Dans le cadre de la détection d événements, on souhaite regrouper les tweets qui parlent d une même actualité, même s ils utilisent des mots différents ; les groupes de tweets obtenus sont en conséquence très grands, comprenant des tweets avec des contenus assez différents. A l inverse, notre but est de regrouper des tweets quasiment identiques pour éviter de surcharger inutilement les analyses avec des contenus qui se répètent. Cette approche peut être vue comme le dédoublement des contenus, une première étape avant d autres traitements. Nous nous approchons ainsi de la démarche adoptée dans [12] où les auteurs cherchent la présence de phrases quasiment identiques dans des contenus de blogs. A la différence de cette étude qui se concentre sur la recherche des phrases suffisamment longues et fréquentes, nous identifions et regroupons tous les tweets quasiment identiques quelques soient leur longueur et leur nombre d apparitions dans le corpus. De plus, nous imposons une contrainte temporelle qui empêche de regrouper des tweets trop éloignés dans le temps.
6 3.2 Méthode Pour regrouper les tweets, il faut définir une distance entre leurs contenus. Aussi, il faut choisir deux seuils, un pour la distance textuelle (nous notons ce seuil s d ) et l autre pour le temps (noté s t ), au-dessus desquels deux tweets ne peuvent pas se retrouver dans un même cluster. Pour la distance textuelle, on impose que tous les tweets d un même cluster, pris deux à deux, se trouvent à une distance inferieure au seuil choisi. Pour le temps, on impose que l écart entre deux tweets consécutifs (si l on trie les tweets d un même cluster en ordre chronologique) soit inferieur au seuil choisi. Nous commençons par décrire chaque tweet par l ensemble des mots qu il contient après l élimination : - des noms précédés par le symbole «@» : généralement des noms d autres utilisateurs de Twitter auxquels le tweet est adressé ou d où le tweet provient ; - des URLs présentes dans les tweets ; - du mot final, s il est suivi par et il n y a pas d espace entre le mot et ; cette situation correspond très souvent à la reprise incomplète d une information où le dernier mot n est pas repris entièrement (par exemple : Fukushima : EDF veut créer une force d'intervention rapide en cas d'accident: - Cette force d'intervention rapi... ) ; - des mots «blancs» qui n apportent aucune information dans la phrase («y», «en», «à», «et» et les articles définis et indéfinis). Pour calculer la distance entre les textes, plusieurs approches sont possibles, notamment l approche vectorielle utilisée dans [15]. Ici, nous utilisons la distance de Jaccard améliorée [1], présentée en figure 2, pour calculer la distance entre deux tweets A et B, après avoir calculé l ensemble des mots de chaque tweet. dist A, B = 1 2 (n A n AB n A + n B n AB n B ) Figure 2. Distance de Jaccard améliorée où n A et n B représentent le nombre de mots dans les ensembles correspondants aux tweets A et B, et n AB représente le nombre de mots communs aux deux ensembles. La distance est égale à 0 si les ensembles des mots sont identiques (à l ordre des mots près) et est égale à 1 si les deux ensembles n ont aucun mot en commun. Nous pouvons maintenant effectuer un clustering hiérarchique pour regrouper les tweets similaires. En règle générale, le clustering hiérarchique est une méthode trop chronophage puisqu elle calcule et évalue les distances entre tous les clusters à chacune de ses nombreuses itérations. Pour surmonter ce problème, nous nous appuyons sur l observation simple qu il n est pas nécessaire d évaluer à chaque étape les distances entre tous les clusters, mais seulement les distances entre chaque cluster et ceux des quelques jours précédents. Ainsi, au lieu de calculer la distance entre tous les clusters pris deux à deux et de vérifier ensuite que leurs tweets consécutifs ne se trouvent pas à des dates plus éloignées que le seuil choisi, nous ne calculons que les distances entre les clusters pour lesquels nous savons que la contrainte de temps est respectée. Nous commençons par faire toutes les fusions possibles pour un même jour parce que les tweets quasi-identiques ont des fortes chances d avoir été publiés le même jour. Nous calculons ensuite les distances entre les clusters de chaque jour et ceux des jours précédents et nous fusionnons les clusters les plus proches identifiés après l évaluation de tous les jours.
7 Nous procédons donc comme suit : 1. chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son jour de publication) ; 2. on regroupe d abord dans des clusters les tweets d un même jour ; pour chaque jour, on répète jusqu à ce qu on ne puisse plus fusionner des clusters : - pour chaque couple de clusters, on calcule la distance comme la moyenne des distances de Jaccard améliorées de tous leurs tweets ; si la distance entre deux tweets est supérieure au seuil s d, la distance entre les deux clusters devient égale à infini ; - on choisit parmi tous les couples de clusters dont la distance n est pas infinie le couple pour lequel la distance est minimale et on fusionne les deux clusters (on crée un nouveau cluster comprenant leurs tweets) ; 3. on répète jusqu à ce qu on ne puisse plus fusionner des clusters : - pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des jours précédents (j-1 jusqu à j-s t ) : comme précédemment, la distance entre deux clusters est égale à la moyenne des distances Jaccard améliorées de tous leurs tweets ; si la distance entre deux tweets est supérieure au seuil de s d, la distance entre les deux clusters devient égale à infini ; - on choisit parmi tous les couples de clusters dont la distance n est pas infinie le couple pour lequel la distance est minimale et on fusionne les deux clusters (on crée un nouveau cluster comprenant leurs tweets) et on met à jour la correspondance cluster-jour : si un cluster contient des tweets de plusieurs jours, ce cluster est associé à tous leurs jours. Cette méthode qui tire profit de la contrainte temporelle, donc du caractère événementiel des tweets, permet de diminuer considérablement le temps de calcul. Sur notre corpus, les clusters sont calculés en quelques minutes pour tous les seuils que nous avons testés ; le plus grand temps de calcul est de 9 minutes dans le cas des seuils maximaux que nous avons essayés (0,6 pour s d et 3 jours pour s t ). La méthode classique de clustering hiérarchique a un temps de calcul sur nos données de presque 3 heures, avec des résultats presque identiques à ceux de l algorithme proposé : les clusters calculés par les deux méthodes sont identiques dans une proportion de 97 à 98% pour tous les seuils testés. 4 Visualisation 4.1 Travaux existants Avec la mise à disposition de données de plus en plus volumineuses, la visualisation de données connaît, de nos jours, un regain d intérêt. Des techniques de visualisation et d analyse textuelle constituent des préoccupations de recherche actuelles comme en témoignent la tenue du premier workshop 4 sur le thème des «interfaces visuelles intelligentes pour le texte» ou les sessions «Text Visualization» des conférences InfoVis 5 et «Text Analytics» des conférences Vast 6. Tous ces efforts correspondent au besoin croissant d analyser des données textuelles de plus en plus nombreuses issues de mails, blogs, forum et réseaux sociaux. Des outils et techniques de visualisation s imposent pour représenter des résultats de recherche (par mot clé par exemple) ou encore pour visualiser des résultats d un clustering. Le simple affichage de la «time line» de twitter ne suffit pas et de nombreuses initiatives voient le jour dans ce domaine pour proposer des visualisations toutes plus spectaculaires les unes que les autres. On citera, par exemple le concours 7 de visualisation organisé par Google pour les élections présidentielles françaises de IVITA, First International Workshop on Intelligent Visual Interfaces for Text Analysis, Hong-Kong, Chine, Février IEEE Information Visualization Conference (IEEE InfoVis) 6 - IEEE Symposium on Visual Analytics Science and Technology (IEEE VAST) 7 -
8 Bien que Twitter soit un thème de recherche récent, un sujet comme la visualisation en général et plus particulièrement la visualisation de l évolution des thèmes dans des corpus textuels de type news, blog et plus récemment réseaux sociaux, n est pas nouveau. Il a fait l objet de plusieurs travaux et plusieurs systèmes de représentations ont été proposées depuis ThemeRiver [8], un peu ancien, jusqu à de plus récents comme TextFlow[5] qui montre comment un thème peut se scinder en plusieurs ou au contraire plusieurs thèmes fusionner ensemble au cours du temps. On citera ici des logiciels fortement interactifs (pour naviguer dans les données afin de mieux les comprendre) comme Jigsaw [16], PosVis [19], ou encore Harvest [7]. Il existe également des bibliothèques graphiques ou des techniques de visualisation, plus ou moins adaptées à chaque domaine, plus ou moins généralistes comme ManyEyes [18] ou Prefuse [9]. Par ailleurs, des visualisations ont spécialement été développées pour Twitter (avec quelques copies d écran en figure 3) : - Nokia Internet Pulse [10] qui balaie automatiquement le site de micro-bloging en fonction de mots clés particuliers, puis classe, en deux catégories, les messages relevés, ceux faisant acte de sentiments positifs, et ceux qui véhiculent plutôt un message négatif. L'ensemble des données est organisé sur une plate-forme en ligne, qui met en avant un nuage de mots-clés correspondant aux commentaires des internautes ; - VoxCivitas [6], un outil, fortement interactif, d analyse visuelle permettant de naviguer au sein d une base de données composées de vidéos et de tweets relatifs à ces vidéos. L application permet de visualiser les tweets au fur à mesure de la lecture de la vidéo, ou encore de naviguer dans ces tweets et de se positionner sur la vidéo au moment de l émission du tweet. Cette application s appuie sur les discours de B. Obama pendant la campagne électorale américaine ; - TweetTopicExplorer 8 qui commence par récupérer les tweets d un compte donné et les assemble en un nuage de bulles crées à partir des mots les plus fréquents des tweets émis par ce compte ; - TwitInfo [13] qui permet d explorer un événement, comme un discours ou une rencontre sportive, en détectant et labellisant automatiquement des pics dans le flux d arrivée des tweets, et en proposant une interface regroupant géolocalisation, sentiments, liens populaires et tweets significatifs ; - Twitt3D 9 qui récupère les tweets d un compte donné et qui les affiche avec la photo de leur auteur, le tout en trois dimensions créé par Jeff Clark 9 -
9 Figure 3. Quelques exemples de visualisation de tweets : Nokia Internet Pulse, VoxCivitas, TweetTopicExplorer, TwitInfo et Twitt3D.
10 4.2 Visualisation réalisée Parmi les techniques de visualisation existantes, deux nous semblent particulièrement adaptées à notre contexte, il s agit des «Stream Graphs» [2] et de «Movie Box Office 10» inspiré du précédent. «Movie Box Office» a été imaginée pour représenter l évolution du nombre d entrées, dans les cinémas, réalisées par les films au cours du temps. Elle permet assez rapidement de comprendre quels sont les films les plus vus et ceux qui sont restés longtemps présents au box office. En observant la figure 4, on constate une similarité entre les tweets et le box-office des films : un message va être tweeté, retweeté, parfois de nombreuses fois, parfois sur une période assez longue, puis sa popularité va décroître comme l audience d un film. Figure 4. Exemple de «Movie Box Office» Largeur de barre Ces différentes raisons nous ont poussés à reprendre à notre compte les principes de cet algorithme et proposer une visualisation très similaire fonctionnant de la manière suivante : - Pour chaque période (ici le jour), on calcule la liste des thèmes (terme générique pour désigner un cluster, une méta-donnée, etc.) et leur occurrence ; - On classe les thèmes par ordre décroissant, puis on affiche chaque thème proportionnellement à son occurrence, en plaçant le plus important en haut de l écran ; - Pour la couleur, si le thème a déjà été rencontré par le passé, on lui attribue la même couleur que précédemment, si le thème n a pas encore été rencontré on lui attribue une nouvelle couleur. - Si le thème ne se trouve pas dans la période concernée (comme A en période J sur la figure 5), on regarde si on va le retrouver ultérieurement. Si c est le cas, alors on lui attribue la taille la plus petite qui soit et on le fait passer sous l axe des ordonnées, ce qui permet de maintenir une continuité visuelle. Cette particularité n existe pas dans l algorithme d origine. - Ensuite on relie les thèmes entre deux périodes successives via des courbes de Béziers afin de produire un rendu «lissé». B A C D C A Espacement inter barre J-1 J J+1 Figure 5. Principe de l algorithme mis en œuvre réalisé par Zach Beane
11 En jouant sur la largeur des barres et sur leur espacement, on fait apparaître des phénomènes différents. Ainsi, sur la figure 6 : - à gauche, un faible espacement inter-barre met d avantage en évidence les thèmes et leur score pour une période donnée ; - à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent d avantage en évidence les évolutions d un thème au cours du temps. Evolution d un thème Figure 6. Mêmes données visualisées selon des paramètres différents Cette visualisation est implémentée en Java au sein d un logiciel développé en interne [17]. Celui-ci permet de fouiller dans des corpus textuels accompagnés de méta-données (jour, semaine, mois, retweet ou pas, thème, etc.). Ce logiciel s appuie sur plusieurs bibliothèques Open Source comme Lucene 11 pour la partie moteur de recherche et sur JFreeChart 12 pour la représentation sous forme de courbe ou d histogramme. Il se présente sous la forme de deux modules : le premier pour
12 indexer les données (une fois pour toute) et le second pour naviguer au sein des données, ici les tweets. Il permet donc de chercher tous les tweets contenant un mot particulier et de voir comment ceux-ci et leurs clusters associés se répartissent en fonction du temps. 5 Expérimentation 5.1 Collecte de tweets Nous avons utilisé l API de Twitter pour télécharger tous les tweets écrits en français contenant un mot clé donné, ainsi que les informations disponibles sur leurs auteurs. Comme notre but était de récupérer tous les tweets susceptibles de concerner EDF, nous avons utilisé comme mot clé unique le mot «EDF». L avantage d utiliser une requête aussi générale consiste dans l identification de tweets couvrant beaucoup de thématiques, à l opposée d une requête trop spécifique où certains sujets peuvent être «oubliés». En revanche, une requête très générale peut entraîner du bruit, i.e. la collecte de données non-pertinentes. Dans notre cas, le mot clé EDF peut être utilisé dans des interventions d internautes pour parler, par exemple, de justificatifs de domicile, ou bien pire encore faire référence à d autres noms qu Électricité de France, comme par exemple «équipe de France». C est d autant plus le cas sur Twitter où les messages sont limités à 140 caractères, ce qui pousse les internautes à utiliser le mot plus court «EDF» quand ils parlent d «équipe de France». Les données non-pertinentes doivent être filtrées avant toute analyse parce qu elles peuvent fausser les résultats : détection d opinions qui ne portent pas sur EDF, fausses statistiques sur l intérêt des utilisateurs pour EDF, etc. Le corpus que nous avons collecté comprend les tweets publiés entre le 3 mars 2011 et le 25 juin 2011 qui contiennent le mot «EDF». Il y a tweets dans le corpus. Pour filtrer les tweets parlant de sport, nous avons défini une liste «noire» de mots liés aux sport («entraineur», «match», «football», «Domenech» etc.) et éliminé du corpus tous les tweets qui contiennent des mots de cette liste ou dont la description de l auteur contient des mots de la liste. Au final, le corpus filtré contient tweets. L écart entre le corpus filtré et celui non-filtré montre l importance de ce prétraitement ; une analyse sur le corpus initial générerait surement des résultats erronés. Quand on s intéresse plus en particulièrement aux «hashtags» contenus dans ces tweets, et en gardant uniquement les plus fréquents sur la période des 4 mois, on peut les regrouper selon différentes thématiques : - thématique du nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ; - thématique du nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ; - thématique de l écologie : #eelv (58), #hulot (53), #renouvelable (23) ; - thématique de l énergie en général : #energie (50), #production (36) ; - thématique de l emploi : #emploi (38). 5.2 Résultat du clustering Nous avons appliqué la méthode présentée dans la section 3.2 pour regrouper les tweets quasi-identiques de notre corpus. L algorithme proposé comprend deux paramètres : un seuil s d pour la distance et un seuil s t pour le temps. Nous avons effectué plusieurs essais avec des valeurs différentes pour les deux paramètres ; nous présentons les effectifs des ensembles de clusters obtenus pour les différentes valeurs dans le tableau 1 :
13 Seuil distance s d seuil temps s t nb. clusters 0,5 1 jour ,55 1 jour ,6 1 jour ,65 1 jour ,5 2 jours ,55 2 jours ,6 2 jours ,5 3 jours ,55 3 jours ,6 3 jours 4114 Tableau 1. Nombre de clusters obtenus en fonction des différentes valeurs de seuil. Dans la suite du document, nous utilisions les clusters obtenus avec les valeurs s d = 0,6 et s t = 3 jours. Parmi les clusters obtenus avec ces valeurs de seuil, clusters contiennent un seul tweet. Le plus grand cluster comprend 155 tweets dont nous présentons quelques exemples: - Publié par alexbongibault le 08/04/2011 à 05:40:08: «Avec une petite éolienne, j'ai baissé ma facture EDF de 40%» Publié par vodka083 le 08/04/2011 à 01:56:58: : «Avec une petite éolienne, j'ai baissé ma facture EDF de 40%» - Publié par mezig75 le 07/04/2011 à 17:51:12: «Avec une petite éolienne, j'ai baissé ma facture EDF de 40%» - LeMonde.fr: Top ça:)! - Publié par chikkitita le 07/04/2011 à 07:29:53: Adoptons tous une éolienne [TEMOIGNAGES] "Avec une petite éolienne, j'ai baissé ma facture EDF de 40%" - Publié par homeenergyperf le 06/04/2011 à 22:50:23: «Avec une petite éolienne, j'ai baissé ma facture EDF de 40%» Invités à faire part de leur expérience en matière Visualisation des clusters Pour réaliser la figure 7, nous avons récupéré tous les tweets de la période considérée, et avons représenté leur répartition dans le temps selon leur cluster d appartenance avec l algorithme décrit en 4.2. En cliquant, sur les barres colorées, ici les clusters, on récupère le premier tweet de chaque cluster. Cette visualisation permet de voir rapidement : - Les périodes qui ont connues beaucoup de tweets ; - Les clusters importants en volume caractérisés par des barres de couleur placées sur le haut de la courbe ; - Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s étalent sur plusieurs jours, contrairement à ceux qui ont une faible durée de vie.
14 Avec une petite éolienne, j ai baissé ma facture de 40%! Pour Henri Proglio, les centrales nucléaires «sont en excellent état». Mars 2011 Avril 2011 Mai 2011 Juin 2011 Figure 7. Représentation des tweets et leur répartition dans le temps selon leur cluster d appartenance. Pour les besoins de l article, nous avons affiché une vue d ensemble, mais il est possible de restreindre la visualisation à une période plus courte afin de favoriser l exploration des résultats.
15 5.4 Visualisation des hashtags Sur la figure 8, nous nous sommes intéressés aux «hashtags» contenus dans les tweets, en ne gardant que ceux apparaissant au moins 15 fois dans le corpus, puis nous avons représenté leur nombre d apparition par semaine. #nucléaire #fukushima #areva #ERDF Figure 8. Visualisation des «hashtags» en fonction des semaines
16 6 Conclusion et perspectives Dans cet article, nous avons présenté une chaine de traitements s appuyant sur Twitter et composée d une série de méthodes et d outils : récupération des données, filtrage, regroupement et visualisation. Cette chaine de traitements est encore à l état de développement et plusieurs pistes sont envisagées pour l améliorer : - la phase dite de regroupement, qui consiste à regrouper des contenus très proches ou contenant le même texte à quelques mots près, que nous avons appelée «dé doublonnage», produit une liste de «clusters» trop grande. Il faudra sans doute opérer un deuxième niveau de «clustering» pour obtenir des groupes de «clusters», ces groupes étant plus thématiques que les premiers ; - un module de détection de sentiments et d opinions pourrait être intégré dans la chaine de traitements. Il permettrait de rechercher ou visualiser les «clusters» positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce. Enfin, ce travail devra être testé d un point de vue métier, c'est-à-dire par ou avec les personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut être intéressant et complémentaire avec les outils et pratiques existants. Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite dans cet article. 7 Bibliographie [1] BRUNET E., Peut-on mesurer la distance entre deux texts? Corpus [En ligne] [2] BYRON, L. and WATTENBERG, M. Stacked Graphs Geometry & Aesthetics. IEEE Transactions on Visualization and Computer Graphics, 14(6): , 2008 [3] CHA M., HADDADI H., BENEVENUTO F., GUMMADI K., Measuring user influence in Twitter: The million follower fallacy. In 4 th International AAAI Conference on Weblogs and Social Media (ICWSM), 2010 [4] CHAKRABARTI D., PUNERA K., Event summarization using tweets, In 5 th International AAAI Conference on Weblogs and Social Media (ICWSM), 2011 [5] CUI, W., LIU, S., TAN, L., SHI, C., SONG, Y., GAO, Z., TONG, X., QU, H. TextFlow: Towards Better Understanding of Evolving Topics in Text. IEEE Transactions on Visualization and Computer Graphics (InfoVis'11) [6] DIAKOPOULOS, N., NAAMAN, M., KIVRAN-SWAINE, F. Diamonds in the Rough: Social Media Visual Analytics for Journalistic Inquiry. Conference on Visual Analytics Science and Technology (VAST) [7] GOTZ, D., WHEN, Z., LU, J., KISSA, P., CAO, N., QIAN, W.H., LIU, S.X. Harvest : An intelligent Visual Analytic Tool for the Masses, IVITA, First International Workshop on Intelligent Visual Interfaces for Text Analysis, Hong-Kong, Chine, Février [8] HAVRE, S., HETZLER, B., NOWELL, L. ThemeRiver: Visualizing Theme Changes over Time. Proceedings of the IEEE Symposium on Information Visualization, 2000 [9] HEER, J. Prefuse : a software framework for interactive information visualization in Masters of Science, Computer Science Division, University of California, Berkeley, 2004 [10] KAYE, J., LILLIE, A., JAGDISH, D., WALKUP, J., PARADA, R., MORI, K. Nokia Internet Pulse: A Long Term Deployment and Iteration of a Twitter Visualization, CHI, ACM Press, Austin, TX (2012) [11] KWAK H., LEE C., PARK H., MOON S., What is Twitter, a Social Network or a News Media? In Proceedings of the 19th international conference on World wide web, ACM, 2010 [12] LESKOVEC J., BACKSTROM L., KLEINBERG J., Meme-tracking and the dynamics of the news cycle, In KDD: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, 2009
17 [13] MARCUS, A., BERNSTEIN, M. S., BADAR, O., KARGER, D. R., MADDEN, S., MILLER, R. C. Twitinfo : aggregating and visualizing microblogs for event exploration. CHI, [14] MATHIOUDAKIS M., KOUDAS N., TwitterMonitor: trend detection over the twitter stream. In SIGMOD Conference, ACM, 2010 [15] ROSOOR B., SEBAG L., BRINGAY S, PONCELET P., ROCHE M., Quand un tweet détecte une catastrophe naturelle... Proceedings of VSST (Veille Stratégique Scientifique et Technologique), 2010 [16] STASKO, J., GORG, C., LIU, Z., SINGHAL, K. Jigsaw: Supporting investigative analysis through interactive visualization. In Proceedings of IEEE, VAST 07, Sacramento, CA, Octobre 2007 [17] SUIGNARD, Ph., NaviQuest : un outil pour naviguer dans une base de questions posées à un Agent Conversationnel, WACA, Quatrième Workshop sur les Agents Conversationnels Animés, 2010 [18] VIEGAS, F. B., WATTENBERG, M., VAN HAM, F., KRISS, J., MCKEAON, M. Many Eyes: A Site for Visualization at Internet Scale,. Infovis, [19] VUILLEMOT, R., CLEMENT, T., PLAISANT, C., KUMAR, A. What s Being Said Near Martha? Exploring Name Entities in Literary Text Collections In Proceedings of IEEE VAST 2009 [20] WENG J., YAO Y., LEONARDI E., LEE F., Event Detection in Twitter, In 5 th International AAAI Conference on Weblogs and Social Media (ICWSM), 2011
Techniques d interaction dans la visualisation de l information Séminaire DIVA
Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques
Plus en détailLe ranking de Augure Influencers La méthodologie AIR en détails
Le ranking de Augure Influencers La méthodologie AIR en détails V1.0 Octobre 2014 Oualid Abderrazek Product Marketing Sommaire 1. Contexte...3 2. L algorithme...3 a. Exposition...4 b. Echo...4 c. Niveau
Plus en détailFACEBOOK ET LES RESEAUX SOCIAUX
CYBERCAMP FACEBOOK ET LES RESEAUX SOCIAUX Pourquoi être présent sur les médias sociaux? Aujourd hui, 70 à 100 % de vos clients sont des internautes! 72 % des français sont des internautes 92 % de ces internautes
Plus en détailLes capitalistes sociaux sur Twitter : détection via des mesures de similarité
Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Nicolas Dugué, Anthony Perez LIFO - Université d Orléans rue Léonard de Vinci B.P. 6759 F-45067 ORLEANS Cedex 2 FRANCE RÉSUMÉ.
Plus en détailCommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU
CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière
Plus en détailTwitter et Netvibes pour la veille
Personnaliser sa veille en santé publique Twitter et Netvibes pour la veille Laetitia Haroutunian Documentaliste, Inpes Au programme! Introduction : définitions et enjeux de la veille! Quelques conseils
Plus en détailRI sociale : intégration de propriétés sociales dans un modèle de recherche
RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse
Plus en détailBibliothèque Esparron en livres. www.esparron-en-livres.com
Les réseaux sociaux Chapitre 1 : Les réseaux sociaux Chapitre 2 : 14 moyens pour être plus visible sur Facebook Chapitre 3 : Comment créer un compte Facebook Chapitre 4 : Statistiques en France Les réseaux
Plus en détailLES RESEAUX SOCIAUX MARDI 25 FEVRIER 2014
LES RESEAUX SOCIAUX MARDI 25 FEVRIER 2014 OFFICE DE TOURISME Maison du Patrimoine 2 rue de la Chapelle 66820 VERNET-LES-BAINS Tel : 04 68 05 55 35 www.vernet-les-bains.fr Contact e-tourisme : Emilie /
Plus en détailFormation à la recherche documentaire sur le web
Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches
Plus en détailForthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
Plus en détailLe Web et Internet. A. Historique : B. Définitions : reliés entre eux via un système d interconnexion.
Le Web et Internet Le terme Network désigne un réseau informatique composé d ordinateurs qui sont reliés entre eux via un système d interconnexion. Internet fait référence à l international. C est un entrelacement
Plus en détailFormation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées
Formation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées SOMMAIRE CONSULTATION DU CATALOGUE DE DONNÉES...3 1 Contrôle des droits...3 2 Navigation par domaine
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailPentaho Business Analytics Intégrer > Explorer > Prévoir
Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux
Plus en détailPETIT LEXIQUE L INBOUND MARKETING
PETIT LEXIQUE DE L INBOUND MARKETING «Pratiquez le marketing que les gens recherchent» Voici de quoi vous apprendre à parler inbound marketing! Ce lexique n a pas vocation à être exhaustif, mais présente
Plus en détailJean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA
La visualisation d information pour comprendre et interagir avec les données Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA Jean-Daniel.Fekete@inria.fr, www.aviz.fr, @jdfaviz
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailQUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.
PRESENTATION QUI SOMMES-NOUS? La société VIEDOC, formée d ingénieurs expérimentés, conseille depuis 2004 les entreprises dans les domaines de la veille, de l intelligence économique et de l innovation.
Plus en détailhttp://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines
Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association
Plus en détailOuvrir un compte Twitter dans son labo Mars 2014 à Paris
Ouvrir un compte Twitter dans son labo Mars 2014 à Paris Présentation issue des discussions de la journée des correspondants communication de l Institut de physique, le 20 mars 2014 1 I Titre de chapitre
Plus en détailGérer, stocker et partager vos photos grâce à Picasa. Janvier 2015
Gérer, stocker et partager vos photos grâce à Picasa Janvier 2015 Sommaire 1 - Découverte de Picasa 2 - Gestion des dossiers et des photos 3 - Trier, filtrer et rechercher 4 - Retoucher une image 5 - Création
Plus en détailLa contribution des réseaux sociaux peut et doit être mesurée
La contribution des réseaux sociaux peut et doit être mesurée Jean-François Renaud, M.Sc. Associé, Adviso Conseil Inc. 4 novembre 2010 www.adviso.ca 3 points de mesures principaux Mesurer le trafic généré
Plus en détailLogiciel photothèque professionnel GUIDE D UTILISATION - 1 -
Logiciel photothèque professionnel GUIDE D UTILISATION - 1 - Sommaire La solution en quelques mots... 3 Les utilisateurs et leurs droits... 4 Les albums, les dossiers et leurs droits... 5 Créer un album,
Plus en détailANALYSE MARQUE NESPRESSO. La marque aux publicités stars. Digimind. Logiciels de veille, e-réputation et social media monitoring 1
ANALYSE MARQUE NESPRESSO La marque aux publicités stars Digimind. Logiciels de veille, e-réputation et social media monitoring 1 Nespresso : une publicité qui crée l événement Le 29 octobre, la marque
Plus en détailDéfinition et diffusion de signatures sémantiques dans les systèmes pair-à-pair
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux
Plus en détailMicro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance
Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance Auteur : François CHAUSSON Date : 8 février 2008 Référence : utiliser le Bureau a distance.doc Préambule Voici quelques
Plus en détailOnce the installation is complete, you can delete the temporary Zip files..
Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une
Plus en détailDe l intérêt des Réseaux Sociaux pour i2n
De l intérêt des Réseaux Sociaux pour i2n Caen le 03/04/2015 Pascal RENAUD Stage Chef de projet marketing et conception de site «Face à la vulgarisation des réseaux sociaux et à l audience qu ils entraînent,
Plus en détailEfficace et ciblée : La surveillance des signaux de télévision numérique (2)
Efficace et ciblée : La surveillance des signaux de télévision numérique (2) La première partie de cet article publié dans le numéro 192 décrit la méthode utilisée pour déterminer les points de surveillance
Plus en détailHighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.
Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...
Plus en détailQu est ce que le référencement web?
Qu est ce que le référencement web? 1. Introduction La première préoccupation des e-commerçants et des possesseurs de sites ou blog est d attirer les internautes sur leurs pages web. Pour arriver à ce
Plus en détailBIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailOptimiser le référencement naturel de son site web
Rodez, le 15 avril 2011 Les moteurs de recherche Les moteurs utilisés dans le monde Les moteurs utilisés en Europe Où clique un internaute? Référencement «payant» 35-40% des clics sur Google Référencement
Plus en détailBarack Obama a gagné la bataille... sur les médias sociaux aussi!
Think... Edition Spéciale Barack Obama a gagné la bataille... sur les médias sociaux aussi! Le 4 avril 2011, Barack Obama annonçait sa candidature à l élection présidentielle américaine de 2012 sur Youtube.
Plus en détailGuide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT
Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT Table des matières Présentation du Centre de gestion des licences en volume (VLSC)... 3 Inscription auprès
Plus en détailGuide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques
Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailProspection clientèle : comment utiliser Twitter pour générer des leads?
Know everything before everyone #twlyon2015 Prospection clientèle : comment utiliser Twitter pour générer des leads? PRÉSENTATION Jean-Christophe Gatuingt @gatuingt Plateforme de veille Twitter pour les
Plus en détailLa recherche d'information sur Internet
La recherche d'information sur Internet Compétence du socle : Je sais utiliser les fonctions principales d'un outil de recherche sur le Web (moteur de recherche, annuaire...) CDI du collège Léon Cazeneuve
Plus en détailDavid BEDOUET, WebSchool Orleans. Cosmina TRIFAN, WebSchool Orleans
David BEDOUET, WebSchool Orleans Cosmina TRIFAN, WebSchool Orleans INTRODUCTION LE REFERENCEMENT NATUREL (SEO) La stratégie du referencement naturel L optimisation On page L optimisation Off Page LE REFERENCEMENT
Plus en détailCampagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet
Campagne de Communication Prévisionnelle Web Intelligence & Réputation Internet 1 Sommaire 1. Introduction... 3 2. Détail de la prestation de gestion de réputation online... 5 2.1 Sélection des mots, thématiques
Plus en détailEn route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne
Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille
Plus en détailCette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée.
PRESENTATION QUI SOMMES-NOUS? La société VIEDOC, formée d ingénieurs expérimentés, conseille depuis 2004 les entreprises dans les domaines de la veille, de l intelligence économique et de l innovation.
Plus en détailDocumentation Suivi S.E.O
Documentation Suivi S.E.O Document : Projet : Documentation Outil de Suivi SEO myposeo Date : 18/02/15 Version : 1 G4interactive SAS 53, rue des deux communes 93100 Montreuil, France contact@myposeo.com
Plus en détailSONDAGE AUPRÈS DES ÉTUDIANTS CANADIENS
SONDAGE AUPRÈS DES ÉTUDIANTS CANADIENS Sommaire exécutif Présenté par : TABLE DES MATIÈRES PUBLICITÉ SUR CAMPUS P. 3 COMMUNICATIONS MOBILES P. 8 HABITUDES EN LIGNE P. 18 HABITUDES MÉDIA P. 26 MÉTHODOLOGIE
Plus en détailPrincipes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche
3 Principes d AdWords Les deux premiers chapitres de ce livre, plutôt généraux, ont présenté l univers d Internet et de la publicité en ligne. Vous devriez maintenant être convaincu de l intérêt d une
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailConsumer. Fiche Synthètique. Journey. Enquête sur les parcours d achat Secteur Fournisseurs d accès à internet (FAI)
Fiche Synthètique Consumer Journey Enquête sur les parcours d achat Secteur Fournisseurs d accès à internet (FAI) Juillet 2013 1 Le secteur des télécommunications a subi des modifications qui ont permis
Plus en détailAnalyse de L e-réputation
Online Intelligence Solutions Analyse de L e-réputation ou comment être à l écoute de ses consommateurs? par Jacques Warren WHITE PAPER WHITE PAPER A Propos de Jacques Warren Jacques Warren évolue en marketing
Plus en détailGUIDE UTILISATEUR DHL FREIGHT E-BILLING LA FACTURATION ELECTRONIQUE PAR DHL FREIGHT
GUIDE UTILISATEUR DHL FREIGHT E-BILLING LA FACTURATION ELECTRONIQUE PAR DHL FREIGHT 1 Guide Utilisateur DHL Freight E-BILLING I. L E-BILLING DHL FREIGHT 1. Définition de l E-BILLING - Principales caractéristiques
Plus en détailUne méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,
Plus en détailPRODIGE V3. Manuel utilisateurs. Consultation des métadonnées
PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.
Plus en détailFormation. Module WEB 4.1. Support de cours
Formation Module WEB 4.1 Support de cours Rédacteur Date de rédaction F.CHEA 08/02/2012 Les informations contenues dans ce document pourront faire l'objet de modifications sans préavis Sauf mention contraire,
Plus en détailIAB France Études fil rouge Vague 2 Internet et la téléphonie mobile
IAB France Études fil rouge Vague 2 Internet et la téléphonie mobile Rapport d étude quantitative De : Nicolas SAINTAGNE / Azyadée BAKA A : IAB FRANCE Contexte & Objectifs Contexte & Objectifs Fort d une
Plus en détailESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE
1 Qu est-ce que Picasa? ESPACE MULTIMEDIA DU CANTON DE ROCHESERVIERE Atelier «pour approfondir» Organiser, traiter et partager ses photos avec Picasa C est un logiciel de gestion de photos gratuit proposé
Plus en détailLa carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA Jean-Daniel.Fekete@inria.fr www.aviz.
La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA Jean-Daniel.Fekete@inria.fr www.aviz.fr Quelques exemples 1 La campagne de Russie de Napoléon
Plus en détailTABLE DES MATIÈRES CHAPITRE I. INTRODUCTION À LA VEILLE... 3
Table des matières TABLE DES MATIÈRES CHAPITRE I. INTRODUCTION À LA VEILLE... 3 SECTION 1. POUR FAIRE UN BON VEILLEUR... 3 I. Les bases de la veille sur Internet... 3 SECTION 2. NOTION DE VEILLE : MÉCANISMES...
Plus en détailTEPZZ 6Z85Z5A T EP 2 608 505 A2 (19) (11) EP 2 608 505 A2 (12) DEMANDE DE BREVET EUROPEEN
(19) TEPZZ 6Z8ZA T (11) EP 2 608 0 A2 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 26.06.13 Bulletin 13/26 (21) Numéro de dépôt: 12197432.3 (1) Int Cl.: H04M 3/487 (06.01) H04M 7/00 (06.01)
Plus en détailInstructions Mozilla Thunderbird Page 1
Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et
Plus en détailGoogle Adresses. Validez la fiche de votre entreprise ou organisation sur Google Maps
Google Adresses Validez la fiche de votre entreprise ou organisation sur Google Maps Le Réseau acadien des sites P@C de la Nouvelle Écosse Janvier 2011 Source : http://www.google.com/support/places/bin/static.py?page=guide.cs&guide=28247&topic=28292&answer=142902
Plus en détailGUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)
GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA) Publié en 2013 par : Institut de statistiques de l UNESCO C.P. 6128, Succursale Centre-Ville Montréal,
Plus en détailTraitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
Plus en détailInstitut français des sciences et technologies des transports, de l aménagement
Institut français des sciences et technologies des transports, de l aménagement et des réseaux Session 3 Big Data and IT in Transport: Applications, Implications, Limitations Jacques Ehrlich/IFSTTAR h/ifsttar
Plus en détailEn 2010, on compte environ 1,65 milliard d utilisateurs d internet, Introduction
Introduction La nature, pour être commandée, doit être obéie.» Francis Bacon, peintre anglo-irlandais. En 2010, on compte environ 1,65 milliard d utilisateurs d internet, soit un quart de la population
Plus en détailSMALL DATA DANS LA VEILLE
SMALL DATA DANS LA VEILLE Collecte et valorisation de l information stratégique dans l entreprise OCP El Jadida 25 Septembre 2014 25 Septembre 2014 OCP - El Jadida 2 Ordre du jour Définitions Etat de la
Plus en détailDocumentation RBS Change E-Commerce Core
Documentation RBS Change E-Commerce Core 10 septembre 2010 2 Table des matières 1 Introduction à RBS Change 7 1.1 Concepts généraux................................... 7 1.1.1 Qu est-ce qu un module RBS
Plus en détailJeudi 16 octobre 2014
Jeudi 16 octobre 2014 PANORAMA DES RESEAUX SOCIAUX 2014 PANORAMA DES RESEAUX SOCIAUX 2014 TOUR DE TABLE Salah Animateur numérique du territoire un ensemble d individus, organisations reliés entre eux
Plus en détailRédiger pour le web. Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web
Rédiger pour le web Objet : Quelques conseils pour faciliter la rédaction de contenu à diffusion web Sommaire 1. Rédiger des contenus... 2 Lire à l écran : une lecture contraignante... 2 Ecrire des phrases
Plus en détailL IMPACT DES RESEAUX SOCIAUX SUR LES COMPORTEMENTS DES JEUNES CONSOMMATEURS
Magdalena Grębosz Jacek Otto Ecole Polytechnique de Lodz, Pologne L IMPACT DES RESEAUX SOCIAUX SUR LES COMPORTEMENTS DES JEUNES CONSOMMATEURS L Introduction L Internet est actuellement le plus grand réseau
Plus en détailComment consulter la Photothèque de Paris 1
Comment consulter la Photothèque de Paris 1 L Université Paris 1 Panthéon-Sorbonne met à votre disposition une nouvelle banque d images en ligne. Le fonds de cette photothèque est constitué d images patrimoniales
Plus en détailAgence & co m : l agence du blog Webmarketing & co m
Agence & co m : l agence du blog Webmarketing & co m Top Classement Teads & Golden Blog Award 2013 (catégorie Marketing) + de 100 rédacteurs 250 000 visiteurs uniques/mois 64 000 fans sur Facebook 56 000
Plus en détailLe logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation.
1 Le logiciel de création de site internet IZISPOT est un outil très puissant et qui est assez simple après quelques temps d utilisation. Voici un mode opératoire qui vous guidera dans l utilisation de
Plus en détailSEO On-page. Avez-vous mis toutes les chances de votre côté pour le référencement de votre site?
SEO On-page Avez-vous mis toutes les chances de votre côté pour le référencement de votre site? I. Introduction... p.2 II. Optimisation on-page vs off-page... p.3 III. Les éléments importants de vos pages...
Plus en détailGUIDE DE PARTICIPATION DES JOURNALISTES AFP AUX RESEAUX SOCIAUX
17.07.2013 GUIDE DE PARTICIPATION DES JOURNALISTES AFP AUX RESEAUX SOCIAUX GENERALITES Les réseaux sociaux font désormais partie du quotidien de milliards de personnes et l information, foisonnante, y
Plus en détailPourquoi choisir la solution publicitaire Google AdWords?
Pourquoi choisir la solution publicitaire Google AdWords? À chaque instant, partout dans le monde, professionnels et internautes utilisent des mots-clés sur Google pour se trouver les uns les autres. Et
Plus en détailNous venons de voir que la tablette Kindle Fire est une excellente liseuse et un agréable
Regarder de la vidéo Nous venons de voir que la tablette Kindle Fire est une excellente liseuse et un agréable lecteur MP3. Nous aborderons à présent un autre aspect de ses capacités multimédias : la vidéo.
Plus en détailManuel d utilisation du site web de l ONRN
Manuel d utilisation du site web de l ONRN Introduction Le but premier de ce document est d expliquer comment contribuer sur le site ONRN. Le site ONRN est un site dont le contenu est géré par un outil
Plus en détailComment utiliser WordPress»
Comment utiliser WordPress» Comment utiliser WordPress» Table des matières» Table des matières Guide de démarrage rapide»... 2 Tableau de bord de WordPress»... 3 Rédiger un article»... 3 Modifier l article»...
Plus en détailINTERNET, C'EST QUOI?
INTERNET, C'EST QUOI? Internet, c'est quoi? «Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et
Plus en détailLeçon N 5 PICASA Généralités
Leçon N 5 PICASA Généralités Avec cette leçon N 5, nous allons commencer l étude du traitement de vos photos avec le logiciel de GOOGLE, PICASA, que vous avez téléchargé dans la leçon N 3. 1 Présentation
Plus en détailIl existe 200 réseaux sociaux (source : Wikipédia) 1 internaute français est en moyenne membre de 4,5 réseaux sociaux (source : Mediaventilo)
# réseaux sociaux Pourquoi un guide? Plateformes collaboratives de partage et d échange, les médias sociaux offrent des possibilités très variées à leurs utilisateurs : actualités, partages de photos et
Plus en détailMARKETING DE CONTENUS
MARKETING DE CONTENUS aznos WWW.AZNOS.FR IL ÉTAIT UNE FOIS EN 2013 Google accélérait ses mises à jour et changeait la nature du référencement naturel Les médias sociaux prenaient de l ampleur dans le marketing
Plus en détailBenchmark. Community Management d agences de communication
Benchmark Community Management d agences de communication Méthode Comparaison d agences très présentes sur les réseaux sociaux, petites et moyennes. Indicateurs : présence sur les réseaux sociaux, nombre
Plus en détailÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE
ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE BOUTIN MARIO Centre de recherche informatique de Montréal (CRIM), 550, rue Sherbrooke Ouest, Bureau 100,
Plus en détailCOMMENT GERER SA E-REPUTATION?
Il y a encore quelques années, l image d une entreprise s appuyait principalement voire essentiellement - sur une communication institutionnelle, construite par le biais de médias traditionnels. Internet
Plus en détailInfolettre #18 : Les graphiques avec Excel 2010
Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet
Plus en détailCréer et gérer une newsletter Comment créer et faire vivre une lettre d information au sein de votre entreprise?
4 Créer et gérer une newsletter Comment créer et faire vivre une lettre d information au sein de votre entreprise? à quoi sert une newsletter? Objectifs et atouts Fabriquer sa newsletter Gérer vos envois
Plus en détailBig data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Plus en détailLa messagerie électronique avec La Poste
La messagerie électronique avec La Poste En novembre 2000, le ministère de l Education Nationale a conclu avec La Poste un accord pour la mise à disposition des enseignants et élèves d un service de courrier
Plus en détail1 Avant-Propos 5 Remerciements. 9 Usages, contraintes et opportunités du mobile. 33 Site ou application : quelle solution choisir? Table des matières
IX Table des matières 1 Avant-Propos 5 Remerciements Partie 1 7 Stratégie et conception des sites et applications mobiles Chapitre 1 9 Usages, contraintes et opportunités du mobile 11 Les usages spécifiques
Plus en détailWomen s State of the Media Democracy 2012 L observatoire international des usages et interactions des médias
Women s State of the Media Democracy 2012 L observatoire international des usages et interactions des médias Women s Forum - Deauville - Octobre 2012 Présentation de l étude Women s State of the Media
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailEntreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Plus en détailGuide pratique du référencement de web consultant eu. Commençons par l optimisation de vos pages, ou on page
Guide pratique du référencement de web consultant eu Edition 2012 Commençons par l optimisation de vos pages, ou on page L'optimisation de vos balises, ou metatags, . 1. La balise est celle
Plus en détail