Dynamiques des réseaux sociaux en ligne

Transcription

1 Dynamiques des réseaux sociaux en ligne recommandations et interactions Stéphane Raux Mémoire de Thèse en Informatique de l Université Paris-Diderot A soutenir le 12 décembre 2014 devant le jury composé de MM. Rapporteurs David Coudert Laurent Vuillon Examinateurs Guilhem Fouetillou Matthieu Latapy Olivier Martin Michel de Rougemont Fabien Viger Directeur Christophe Prieur INRIA, Sophia Antipolis Univ. de Savoie, Chambéry Linkfluence, Paris Univ. P. & M. Curie, Paris Univ. Paris Descartes Univ. Panthéon-Assas, Paris Google France, Paris Univ. Paris-Diderot

2 2

3 Résumé Le succès de plateformes comme Facebook ou Twitter, qui s appuient sur les interactions entre leurs utilisateurs pour partager des informations a profondément changé la manière dont nous utilisons le web. Cette thèse propose d exploiter des méthodes d analyse de grands graphes et de réseaux sociaux, mais aussi des techniques de web mining et d analyse de texte pour élaborer des outils et des méthodes d analyse des usages de ces sites de réseaux sociaux. Nous nous intéressons en particulier à deux types d interactions : la conversation, que nous analysons à partir de réseaux de commentaires ou de mentions d utilisateurs, et la recommandation, qui repose essentiellement sur des pratiques de citations de liens hypertextes. Une première analyse porte sur la dynamique des commentaires de Flickr et sur la manière dont ce réseau se construit. Nous proposons ensuite une méthode d échantillonnage de Twitter qui permet de capter en continu un corpus d utilisateurs centré sur le web français, et d élaborer une méthode de détection et de suivi des sujets à partir des citations de liens dans les données ainsi collectées. Il est ainsi possible de réaliser une typologie des utilisateurs en fonction de leur activité et de proposer une méthode de reconstitution des cascades de diffusion de liens sur Twitter. Ces travaux ont étés réalisés au sein de la société Linkfluence et ont donné lieu au développement de plusieurs programmes, dont le système de captation continue de messages sur Twitter et l application Algopol, qui a permis de recruter plus de participants pour une enquête sociologique et de collecter leurs profils Facebook dans le cadre d un projet de recherche pluridisciplinaire.

4 2 Abstract The success of social media platforms like Facebook or Twitter, which rely on user activity for sharing information has led to dramatic changes in the way we use the web. This thesis uses methods from complex networks, social network analysis and web mining to build tools and define methodologies for analysing the users behaviours. We focus specifically on two kinds of interactions : we analyze conversations using networks of comments or user mentions, and recommendations from hyperlink quotes. First, we analyse the dynamics comments on Flickr and the way they evolve this network. Then we propose a sampling method of Twitter users allowing the allowing long term tracking of tweets focusing on the french web. Hyperlinks from the data thus collected are used to detect and monitor conversation topics. We also categorize Twitter users based on their activity and propose a method to infer cascades of diffusion of hyperlinks on this network. These works were realised within the company Linkfluence and have led to the developpement of several softwares, such as the framework collecting continuous data from Twitter. We also realized the Algopol application, which was used to recruit over 12, 000 participants for a sociology study and collect their Facebook profile data in the context of a multidisciplinary research program.

5 Table des matières Remerciements 6 Introduction 9 I État de l art et enjeux scientifiques et technologiques 17 1 Concepts et outils Graphes et grands réseaux Collecte et analyse de données web Contexte scientifique Les graphes de terrain Recherche sur le «web social» Linkfluence ou l approche communautaire Un institut d études spécialisé dans l analyse du web Les communautés du web Principales briques technologiques Problématiques de recherche II Construction de liens dans un grand réseau social : les commentaires sur Flickr 49 1 Données et méthodes Construction du graphe de commentaires Formalisation Mesures Méthodes Évolution de l activité Robustesse de la structure générale du graphe Évolution de la composante connexe principale Réduction du graphe aux liens réciproques Comparaison sur différentes périodes de temps La robustesse du graphe Transitivité dans les commentaires Les «voisins proches» Évolution des écarts : les trois âges d un réseau social 63 3

6 4 TABLE DES MATIÈRES 5 Conclusion III Du corpus de blogs au corpus Twitter 65 1 Segmentation communautaire du Linkscape Méthodes simples de catégorisation Élargissement supervisé de la frontière Des communautés de sites aux communautés d intérêts Les pratiques de citation sur Twitter Perspectives Échantillonnage des utilisateurs Échantillonnage des utilisateurs Évaluation des méthodes d échantillonnage Discusssion Construction de la Twitosphère Anatomie de la chaîne de captation Indexation et passage à l échelle Exploitation de la Twitosphère IV Suivi de sujets 91 1 Calcul de proximité à partir d un graphe biparti Les graphes biparti Pondérer les projections Une méthode de projection stochastique Discussion Application au suivi de sujets sur Twitter Détection de sujets Validation de la méthode Volumes de citations et sujets populaires Discussion Conclusion V Activité des utilisateurs de Twitter Typologie des utilisateurs en fonction de leur activité Mesure de l activité et de l audience Corrélations entre les indicateurs Regroupement et typologie des utilisateurs Perspectives Reconstitution de cascades de diffusion Analyse d une chaîne de diffusion Application sur les urls de Hackernews Explication des retweets

7 TABLE DES MATIÈRES 5 VI Individus et réseaux Evolution et constitution des voisinages La composition de l entourage relationnel Suivi individuel des sommets Mesure de l activité de chaque individu Concentration de l activité Conclusion Dispositif de l enquête Algopol sur Facebook Présentation du dispositif Perspectives d expoitation des résultats Conclusion 143 Bibliographie 155

8 6 Remerciements Remerciements Les nombreuses personnes que j ai rencontrées au cours des dernières années ont joué un rôle décisif dans la réalisation de cette thèse. Je tiens aujourd hui à leur exprimer toute ma gratitude. Je souhaite d abord remercier mes rapporteurs, David Coudert et Laurent Vuillon, pour leur patience dans l attente du manuscrit et pour leurs retours constructifs. Je remercie aussi Olivier Martin, Michel de Rougemont et Fabien Viger pour avoir accepté de participer au jury. Christophe Prieur a bien sûr joué un rôle essentiel en acceptant de diriger mes recherches malgré mon parcours original et en ne ménageant pas ses efforts pour obtenir un financement. Je tiens à le remercier pour l enthousiasme sans faille dont il a fait preuve au cours de ces six années, pour ses nombreux encouragements et pour sa patience lorsque mon investissement dans la vie de l entreprise empiétait sur le temps consacré à mon sujet de recherche. Je remercie aussi Guilhem Foueillou, qui m a permis de réaliser un contrat Cifre au sein de Linkfluence et qui m a aiguillé sur l analyse et la collecte des données Twitter. Mon intégration réussie au sein de l équipe des développeurs doit beaucoup à l enthousiasme et à la confiance de Camille Maussang, que je remercie pour son soutien sans faille au cours de ces années. Enfin, ce travail n aurait pas pu être réalisé sans le soutien de Matthieu Latapy, qui a fourni un précieux financement dans l attente du contrat Cifre. Je tiens aussi à remercier les enseignants du master PISE pour m avoir inculqué à la fois les connaissances fondamentales et la confiance nécessaires pour la poursuite de mon parcours professionnel. Christophe Darmangeat a joué en ce sens un rôle essentiel en tant que responsable de la formation et j ai eu beaucoup de plaisir à collaborer avec lui lorsque je suis ensuite devenu enseignant dans cette formation. Mon implication dans la recherche doit beaucoup à la bienveillance d Hélène Millet, qui m a donné l occasion de travailler pour la première fois en tant qu informaticien dans le cadre de programmes de recherche en Histoire médiévale. Cette collaboration m a beaucoup aidé par la suite pour travailler dans le cadre de projets pluridisciplinaires et c est grâce à elle que j ai eu l occasion de m intéresser pour la première fois à l analyse des réseaux sociaux. Je remercie aussi Jean-Philippe Genet, Alain Dallo, Christine Ducourtieux ainsi que l ensemble des collègues du LAMOP pour leur accueil au cours de ces trois années. Mon travail quotidien a été rythmé par l alternance entre les locaux du LIAFA et de Linkfluence. J ai bénéficié dans les deux cas d un excellent accueil et d un environnement stimulant et enthousiasmant.

9 7 Je remercie mes collègues du LIAFA pour leur accueil très ouvert alors que je découvrais encore le monde de la recherche en informatique. J ai beaucoup apprécié l ambiance détendue et la solidarité entre les thésards, mais aussi les discussions au coin café avec les membres de chaque équipe et les nombreux séminaires organisés au sein de l équipe algorithmique et graphes. La découverte du fonctionnement d une startup en forte croissance a été une expérience passionnante. J ai appris énormément au contact de l équipe des développeurs et chacun a fait preuve de beaucoup de disponibilité et d enthousiasme pour partager et acquérir de nouvelles compétences. J ai aussi pris beaucoup de plaisir à échanger avec les chargés d études sur les méthodes d analyse ou sur les applications des outils développés à Linkfluence. J ai eu la chance d être impliqué dans plusieurs projets de recherche qui m ont donné l occasion de collaborer avec des chercheurs issus de nombreuses disciplines. J ai été fortement influencé par les travaux de Dominique Cardon, de Camille Roth et de Jean-Philippe Cointet, ainsi que par ceux des membres du laboratoire SENSE d Orange Labs et de l équipe Complex Networks du LIP6. Je remercie tout particulièrement Nils Grünwald pour m avoir accompagné pendant les trois premières années à Linkfluence et pour les discussions très enrichissantes que nous avons tenues sur notre travail, l informatique et de nombreux autres sujets. Sa curiosité, son enthousiasme et ses connaissances encyclopédiques me manquent beaucoup. J ai aussi beaucoup apprécié ma collaboration avec Irène Bastard dans le cadre de la réalisation de l application Algopol. Je la remercie pour son organisation, sa patience et son aide décisive dans la conception, la documentation et la promotion du projet. Je remercie Baptiste Fontaine et Quentin Lobbé pour leur contribution dans le cadre de leurs stages, ainsi que la «dream team», composée en plus de Nils par Alexis Jacomy et Ronan Quidu, qui ont joué un rôle très important dans le projet mediarena et la réalisation de l application Algopol. Le travail de recherche compte toujours des périodes d enthousiasme et de découragement, j ai eu la chance de pouvoir compter sur l amitié de nombreuses personnes. Merci en particulier à Julie, Arnaud, Vanessa, Willy, Matthieu et Youri pour leur soutien, ainsi qu à tous ceux qui n ont pas manqué de me conseiller et de m encourager au cours de cette période. Je remercie en particulier Fanny Forgeau, Antoine Vaguet, Youri Carbonnier, Cécile Le Goff et ma mère pour leur relecture attentive du manuscrit et les nombreuses corrections et suggestions d amélioration. Je tiens enfin à exprimer mon affection et ma gratitude les plus profondes à ma famille, dont l implication, le soutien et les encouragements ne m ont jamais fait défaut. Je remercie en particulier mes parents et mes grandsparents pour m avoir transmis le goût de la recherche et la curiosité pour les approches interdisciplinaires.

10 8 Remerciements

11 Introduction Le world-wide web a pris une place essentielle dans toutes les sphères de notre vie sociale. En à peine plus de deux décennies, il a entraîné des changements radicaux dans notre rapport à l information et à la connaissance, avec le passage d un système où les informations publiées étaient filtrées a priori par une petite population d éditeurs, à un système où les informations sont publiées en masse et classées a posteriori par des algorithmes. Cet ensemble est souvent perçu comme un espace chaotique. Face à une multitude de sites, de pages et autres sources d informations qui ne cessent de croître, l internaute comme le chercheur sont confrontés au problème du classement : comment accéder à l information qu on recherche? Comment faire la part des informations qui nous intéressent et des autres? Comment s orienter dans cet ensemble? Des solutions variées ont été adoptées pour tenter de répondre à ces questions, et leur nature a évolué avec les usages et la massification des utitilisateurs. Dans Cardon (2011), l auteur définit cinq grands principes de classement de l information sur le web. Les premières méthodes de classement qui ont été mises en œuvre sur le web correspondent à la transposition des principes de classement issus des espaces d information hors ligne : l éditorialisation, l autorité, et l audience. L éditorialisation consiste à définir des ontologies et à classer les pages en les regroupant sous forme d annuaires ou d index, à la manière des classements de bibliothèques ou des méthodes de référencement utilisées dans l édition papier. Les premiers grands portails, à commencer par celui de Yahoo!, ont fonctionné sur ce principe en proposant une segmentation du web. Ce mode de classement a cependant atteint ses limites dès la fin des années 1990, lorsque la croissance spectaculaire du nombre de pages a conduit l ensemble de ces acteurs à abandonner tout projet de classement de l ensemble des pages par des humains. Le principe de mesure d autorité a permis de résoudre ce problème en confiant le classement des sites à des algorithmes. Plusieurs méthodes ont été proposées, les plus célèbres étant le HITS de Kleinberg, qui permettait de repérer des «aiguilleurs» (ou «hubs») et des «autorités» dans un ensemble de pages (Kleinberg, 1999), et bien sûr le PageRank de Google (Brin & Page, 1998). Si les méthodes en elles-mêmes ont été transposées depuis 9

12 10 Introduction d autres domaines d application, l originalité et le succès de cette nouvelle démarche reposent sur l abandon de l analyse du contenu des documents, pour s intéresser plutôt aux liens hypertextes qu ils contiennent, qui sont interprétés comme des votes ou des recommandations. La notion d autorité est donc associée à la popularité des pages. L audience des pages a également joué un rôle essentiel dès les premières années. Elle est plus difficile à évaluer et à mesurer que les scores liés aux liens hypertextes et au contenu des documents car sa mesure s appuie le plus souvent sur le nombre de connexions, ce qui nécessite d accéder aux serveurs sur lesquels les pages sont hébergées. C est sur ce modèle que repose la publicité en ligne, qui assure une grande partie du modèle économique du web. Les mesures d audience sur le web correspondent au modèle de l édition traditionnelle. Ces trois principes (éditorialisation, autorité et audience) restent largement hérités des modèles de classement utilisés hors ligne : même les méthodes algorithmiques sont couramment utilisées pour mesurer l autorité des revues scientifiques. Ces modèles d édition se caractérisent tous par une forte opposition entre un petit nombre d éditeurs et un grand nombre de lecteurs «passifs». Ce monopole des publiants sur le classement de l information a été de plus en plus contesté, ce qui a permis l apparition de nouveaux principes de classement. En effet, la démocratisation de l accès au web a entraîné une massification des utilisateurs et fait évoluer les usages, permettant l apparition de formats de publication brefs, simples et immédiats, donc plus proches de la conversation ordinaire. Cela s est d abord traduit par l essor des blogs, qui ont permis d élargir la population des publiants en rendant facilement accessible la publication d articles sur une grande variété de sujets. Ce phénomène fait émerger de nouveaux usages, certains utilisateurs s appropriant ces outils pour les mettre au service de stratégies de promotion personnelle et de visibilité, d autres préférant les utiliser pour entretenir des relations avec un petit cercle de contacts qui correspond souvent à des proches de la personne dans sa vie hors ligne, avec des formes de production de données qui sont souvent plus axées sur l activité au quotidien (sous forme de journal intime par exemple). Dans la continuité des blogs, les grands sites de «réseaux sociaux» ont introduit des fonctions pour partager, commenter et répertorier des informations, en support à une mise en relation des utilisateurs. Le développement et le succès de ces plateformes reposent sur deux critères supplémentaires : l affinité et la vitesse. L affinité vise à personnaliser le classement de l information en privilégiant les contenus partagés ou recommandés par les proches. Ce principe se démarque donc de la notion d autorité, dont l ambition est plutôt de proposer un classement uniforme pour l ensemble d un réseau. Le cas le plus

13 11 emblématique est sans doute le «fil d actualités» sur Facebook, qui est essentiellement composé des publications des amis, mais il est également couramment appliqué jusque dans la recherche Google, qui personnalise les résultats des recherches en fonction des informations issues de l adresse IP ou de l utilisateur des services de la plateforme. Enfin, le principe de la vitesse consiste à privilégier l information la plus récente, l objectif étant de la transmettre en temps réel. Ce principe se manifeste par exemple à travers la timeline Twitter, et sa question «what s happening?». Ces modifications des usages ont entraîné une spécialisation des services de publication, en fonction des différents types d activité de leurs utilisateurs. On observe une forte distinction entre les espaces consacrés à la publication de contenus (médias en ligne, sites web traditionnels, blogs) et des espaces consacrés d avantage au commentaire, au partage et à la recommandation de ces contenus, comme c est le cas en particulier sur des sites comme Twitter ou Facebook. Un autre changement important se manifeste dans l évolution du rapport aux données, dont la collecte est de plus en plus implicite et automatique. La moindre action effectuée sur Facebook est enregistrée et peut être exploitée à des fins de publicité ou de statistiques personnelles : tout devient trace et est partageable auprès des contacts. Les utilisateurs sont ainsi encouragés à suivre une logique d enregistrement systématique de leur activité et de catalogage de leurs intérêts. Ces traces de plus en plus nombreuses laissées par les internautes ouvrent de nouvelles perspectives pour étudier les comportements en ligne. Qu il s agisse de prises de paroles, de recommandations, de votes, ou simplement de connexions, la collecte et l exploitation des traces de l activité en ligne sont devenues un enjeu majeur pour les grands acteurs du web, popularisé avec l expression big data. Elles jouent aussi un rôle essentiel pour les entreprises et les institutions qui sont présentes sur le web afin d entretenir leur réputation en ligne et de maîtriser leur communication, mais aussi pour savoir se situer par rapport à leurs concurrents, identifier les publics qui parlent de leurs produits, et éventuellement déceler des attentes ou des opportunités pour le lancement de nouveaux services. Les méthodes d analyse et les champs de recherche qui s intéressent à ces domaines ont également beaucoup évolué tout au long de cette période. L un des exemples les plus emblématiques est la constitution des recherches autour des complex networks en tant que champs de recherche pluridisciplinaire qui regroupent à la fois des travaux issus de la recherche en biologie, en physique, en informatique, et en sciences sociales. Du point de vue des technologies, l explosion du volume de données à traiter, leur caractère fortement hétérogène et les contraintes très fortes de

14 12 Introduction vitesse ont conduit à de nombreuses innovations sur l architecture logicielle et matérielle. D abord développés au sein des équipes de géants du web comme Google ou Amazon, de nouveaux paradigmes comme le cloud computing (pour amazon) ou le map reduce changent radicalement les modes de stockage et de traitement des données. Ces technologies se sont par ailleurs «démocratisées» et de nombreux projets permettent d en bénéficier sous forme de logiciel libre. C est le cas par exemple de l écosystème Hadoop, soutenu par la fondation Apache, qui est au cœur du mouvement des big data dans un environnement open source. Enfin, les avancées en termes de services proposés par les géants comme Google ont consacré le triomphe des méthodes de machine learning, qui s appuient sur l exploitation de ces très grands volumes de données en tant que corpus d apprentissage pour proposer des services de recommandation, de recherche, ou même de traduction. Ces évolutions soulèvent cependant des questions dans le rapport que nous entretenons avec les données et notre conception de la connaissance, comme le soulignent Boyd & Crawford (2011), qui nuancent l enthousiasme porté sur ce mouvement en en soulevant plusieurs limites. Tout d abord, certaines études ne peuvent être menées à grande échelle, quelle que soit la précision des données collectées. Par ailleurs, toute donnée est le fruit d une construction et contient donc des biais qu il convient d exposer, allant ainsi à l encontre de l argument d «objectivité» souvent mis en avant par les partisans d une analyse massive : une information plus abondante ne conduit pas nécessairement à une meilleure qualité des résultats. Elles insistent également sur les aspects éthiques liés à l exploitation en masse de données sans tenir compte de leur contexte de publication et sur les risques que de telles pratiques peuvent comporter pour les utilisateurs et le respect de leur vie privée. Enfin, elles soulignent que ces données sont souvent possédées par des groupes privés qui jouissent d un monopole sur leur accès, et que les compétences nécessaires pour les exploiter sont difficiles à acquérir, ce qui entraine un fort risque d accroissement d une fracture numérique qui pourrait déboucher sur une «recherche à deux vitesses» opposant universités riches avec profils scientifiques et universités moins fortunées avec profils de sciences humaines, souvent tenues à l écart de ce type de recherches. Plan de la thèse et contributions L objectif de cette thèse est d associer des méthodes d analyse de grands graphes et de réseaux sociaux, mais aussi des techniques de web mining et d analyse de texte pour proposer des outils et des méthodes d analyse des médias sociaux en ligne. Nous nous intéressons en particulier à trois domaines : l analyse des communautés qui peuvent être constituées par un

15 13 réseau de relations ; la hiérarchisation des contenus, liée à la prise en compte de la notion d influence ; et en troisième lieu, l élaboration de typologies d utilisateurs. Nous nous intéressons en particulier à deux types d interactions : la conversation que nous analysons à partir de réseaux de commentaires ou de mentions d utilisateurs, et la recommandation qui repose essentiellement sur des pratiques de citations de liens hypertextes. Le chapitre I est consacré à l état de l art et à la présentation des principales méthodes mobilisées dans le cadre de nos travaux. Ceux-ci s appuient essentiellement sur deux ensembles : l analyse de réseaux sociaux et en particulier de leur modélisation sour forme de graphes, et des méthodes de webmining qui concernent à la fois la collecte et l exploitation statistique des résultats. Le chapitre II propose une étude de cas sur la dynamique des commentaires du réseau Flickr qui a été réalisée sur un jeu de données correspondant à l ensemble de l activité publique de la plateforme sur une durée de deux ans. Elle permet de saisir des caractéristiques communes à de nombreux corpus traitant de l activité d utilisateurs sur des sites similaires et souligne l importance de phénomènes tels que la transitivité dans la constitution des relations. Le chapitre III détaille le dispositif de captation que nous avons mis en place pour suivre en continu l activité du service Twitter correspondant aux utilisateurs qui citent régulièrement des articles provenant du web français. Ce dispositif s appuie en particulier sur une méthode de sélection des utilisateurs qui privilégie ceux qui ont des profils de citations variées, et a permis de collecter des messages sur une période de deux ans. Le chapitre IV présente une première piste d exploitation de ce corpus Twitter, à partir d une méthode de projection pondérée d un graphe biparti construit à partir des citations d urls par les utilisateurs. Nous montrons que cette méthode permet entre autres de regrouper efficacement certains des articles cités par sujets similaires. Le chapitre V dresse une typologie des usages des utilisateurs de Twitter à partir de leur seule activité. Nous montrons que ces informations sont de bons indicateurs du succès des utilisateurs, à la fois en termes de nombre de retweets et en nombre de citations. Nous présentons enfin un dispositif visant à reconstituer des cascades de diffusion de tweets mentionnant une url. Enfin, le chapitre VI complète les approches exposées précédement en proposant deux méthodes d analyse des comportements individuels : la première concerne les profils des utilisateurs commentés sur Flickr, et la deuxième est un dispositif expérimental qui vise à recueillir et à analyser de manière systématique les usages de Facebook à partir des informations issues des réseaux egocentrés d amis sur Facebook.

16 14 Introduction Valorisation Les recherches entreprises dans le cadre de ce mémoire ont donné lieu aux productions suivantes. Articles Stéphane Raux, Christophe Prieur Stabilité globale et diversité globale dans la dynamique des commentaires de Flickr, RTSI série TSI, 30(2) : Stéphane Raux, Nils Grünwald, Christophe Prieur Describing the web in less than 140 characters, International Conference on Weblogs and Social Media (ICWSM), Barcelone. Communications Conférence internationale Sélection sur abstract Stéphane Raux, Christophe Prieur, Inferring Spreads on Twitter, annual meeting of the International Network for Social Network Analysis (Sunbelt), Hambourg, Mai Irène Bastard, Stéphane Raux, Re-reading Personal History through Facebook Status : How to Use Online Data in Qualitative Interviews?, annual meeting of the International Network for Social Network Analysis (Sunbelt), Hambourg, Mai Conférences nationales sélection sur abstract ou extended abstract Stéphane Raux, Christophe Prieur, Guilhem Fouetillou, Nouvelles pratiques de recommandation et pratiques de citation sur Twitter, Journées d études de l Association Française de Sociologie, RT 29, Toulouse, mars Stéphane Raux, Christophe Prieur, Liens proches dans les réseaux sociaux - La dynamique des commentaires de Flickr, Algotel, Carry-Le-Roué, Juin Outils logiciels Cette thèse a été réalisée au sein de l entreprise Linkfluence, dans le cadre d un financement Cifre. Dans ce cadre, j ai travaillé au sein de l équipe de recherche et de développement et j ai participé au développement de plusieurs programmes et outils qui sont utilisés en production dans l entreprise. Le travail présenté dans le cadre de ce mémoire a donné lieu en particulier à la réalisation des programmes suivants : la Twitosphere (section 4 du chapitre III) l application Algopol (section 2 du chapitre VI)

17 15 deux observatoires des discours des candidats aux élections présidentielles de 2007 et de 2012, qui ont été présentés sur lemonde.fr à l occasion de la campagne de Ce travail a été réalisé dans le cadre d une collaboration avec lemonde.fr et Jean Véronis explorez-les-discours-des-candidats-a-la-presidentielle-2012_ _ html

18 16 Introduction

19 Chapitre I État de l art et enjeux scientifiques et technologiques 1 Concepts et outils Cette section est consacrée à la présentation des principaux concepts que nous avons mobilisés dans le cadre de cette thèse. En plus des outils classiques d analyse de graphes que nous avons mobilisés, nous présentons les outils que nous avons utilisés pour collecter et traiter les données hétérogènes issues du web. 1.1 Graphes et grands réseaux Un graphe est un couple G = (V, E), où V est l ensemble des sommets et E V V l ensemble des arêtes qui les relient. Le terme de réseau peut être employé en tant que synonyme de graphe dans certaines disciplines telles que la biologie ou la sociologie. Le terme de noeud devient alors synonyme de sommet et le terme de lien synonyme d arête. Nous noterons n = V le nombre de sommets, et m = E le nombre d arêtes. Le graphe G est dit non-dirigé (ou non-orienté) si l ordre des arêtes n est pas pris en compte, i.e.pour toute paire (u, v) E, la paire (v, u) E. Dans le cas contraire, le graphe est dit dirigé (ou orienté). Un graphe simple est un graphe dans lequel pour toute paire de sommets u et v il n existe qu un seul lien (u, v) E, et dans lequel les auto-boucles ont été retirées : (v, v) E, v V. Dans le cas contraire, on parle de multi-graphe. Certaines informations supplémentaires peuvent être associées aux sommets et aux arêtes. Ainsi, un graphe pondéré est un graphe auquel on associe une fonction de pondération ω(u, v) qui associe un poids à chaque arête (u, v) E. Le poids des arêtes permet de les hiérarchiser, en s appuyant par exemple sur des notions de similarité ou de proximité des sommets. Sauf mention contraire, nous parlerons de graphes simples, non-orientés 17

20 18 État de l art et non pondérés dans le cadre de ce mémoire. Nous notons N(v) = {u V, (v, u) E} le voisinage de v. Le nombre de sommets dans N(v) est le degré de v : d(v) = N(v). La distribution des degrés est la proportion p k, pour chaque entier k, de sommets de degré égal à k dans le graphe G : p k = 1 n v V, d(v) = k. Un chemin est une séquence de liens permettant de relier deux sommets entre eux, la longueur du chemin étant le nombre de liens de cette suite. Si les deux sommets sont les mêmes, alors le chemin est un cycle. Deux sommets sont dits connexes s il existe au moins un chemin de longueur finie permettant d aller de l un à l autre. La distance entre deux sommets u et v, notée d(u, v) correspond à la longueur d un plus court chemin qui relie les deux sommets (il peut y en avoir plusieurs). Si aucun chemin ne permet de les relier, la distance est infinie et les deux sommets ne sont pas connexes. Une composante connexe est un ensemble maximal de sommets qui sont tous reliés par un même chemin. Un graphe est dit connexe s il ne contient qu une composante connexe. Le diamètre d un graphe est la plus grande distance qui existe entre deux de ses sommets. Comme cette mesure n a de sens que si le graphe est connexe, on la restreint en pratique en calculant le diamètre de la plus grande composante connexe. Si le graphe est connexe, la distance moyenne correspond à la moyenne de la distance entre toutes les paires de sommets. Les notions de distance moyenne et de diamètre capturent le nombre d intermédiaires à franchir (respectivement en moyenne et au plus) pour aller d un sommet à un autre dans le graphe. La densité, notée δ(g), d un graphe G qui contient au moins deux sommets correspond au rapport entre le nombre de liens du graphe et le nombre de liens possibles : δ(g) = m ( n 2 ) = 2m n(n 1) Un graphe complet, ou clique est un graphe dans lequel il existe un lien entre chaque paire de sommets, sa densité vaut alors 1. Comme le nombre de liens possibles augmente de manière quasi-quadratique lorsque le nombre de sommets augmente, cette mesure ne permet pas de comparer entre eux des graphes de tailles différentes. Lorsque le nombre de sommets et de liens appartiennent au même ordre de grandeur (i.e. m O(n)), ce qui est le cas dans les graphes rencontrés en pratique, on préfère souvent utiliser la mesure du degré moyen : d = 1 2m v V d(v). Une autre alternative est de compter la proportion de cycles par rapport à m, c est-à-dire le nombre de liens qu il faudrait retirer de G pour obtenir un arbre (ou un ensemble d arbres si G n est pas connexe). Si on note c le nombre de composantes connexes et b le nombre de cycles, on obtient l égalité suivante : b = c + m n. Le rapport b m permet de mesurer à quel

21 I/1. Concepts et outils 19 point le graphe «ressemble» à un arbre : il a pour valeur 0 dans le cas d un arbre et tend vers 1 dans le cas d un graphe complet. Le coefficient de clustering ou densité locale, noté cc(g) correspond à la moyenne des densités des voisinages de chaque sommet de G, ce qui revient à calculer le rapport entre le nombre de triangles dans G et le nombre de triangles possibles : cc(g) = 1 n δ(n(v)) Cette mesure correspond à la probabilité que deux sommets qui ont un voisin en commun soient connectés entre eux. Un parcours de graphe permet de visiter les sommets d un graphe en suivant ses liens. Les parcours les plus couramment utilisés sont le parcours en largeur (breadth-search first, ou BFS) et le parcours en profondeur (depthsearch first, ou DFS). Dans les deux cas, on choisit un sommet de départ que l on appellera la racine et on parcourt ses voisins, les voisins des voisins, et ainsi de suite, tant que l on rencontre de nouveaux sommets. Les voisins d un sommet sont appelés ses enfants. Dans un parcours en largeur, on explore d abord tous les enfants de la racine, puis tous les enfants des enfants, et ainsi de suite. Dans un parcours en profondeur, on explore d abord un enfant, puis le premier petit-enfant, et ainsi de suite, avant de parcourir les enfants suivants. Le parcours en largeur s implémente facilement avec une file, tandis que le parcours en profondeur s implémente plutôt avec une pile. Il existe plusieurs manières de représenter un graphe en mémoire. Une première solution est de l encoder à l aide d une matrice d adjacence A de taille n n dans laquelle A i,j = 1 si (i, j) E, et 0 sinon. Ce codage permet de vérifier l existence d un lien en temps constant, mais une requête d adjacence, qui consiste à lister les voisins d un sommet v demande de parcourir une ligne entière, et s effectue en O(n), et le chargement de la matrice en mémoire demande Θ(n 2 ), ce qui est inefficace lorsque le graphe est peu dense. Un codage plus efficace dans ce cas consiste à utiliser une représentation en liste d adjacence, dans laquelle on stocke pour chaque sommet la liste de ses voisins. Cette représentation permet de réduire l espace nécessaire au chargement en mémoire à Θ(m), et le parcours d un voisinage se fait en temps optimal : Θ(d(u)). Cependant, cette structure est moins efficace que la matrice d adjacence pour tester l existence d un lien : Θ(d(u)), que l on peut améliorer à Θ(log(d(u))) si la liste de voisins est triée. Ce mode d encodage reste malgé tout bien plus efficace que le précédent lorsqu on travaille sur des graphes de grande taille et de faible densité. Ces considérations d efficacité sont essentielles lorsque l on souhaite manipuler des graphes de grande taille (i.e. des graphes allant de quelques milliers à des millions de sommets). Comme la mémoire vive est souvent la ressource la plus chère et la plus limitée sur une machine, un arbitrage est v V

22 20 État de l art souvent effectué pour utiliser des algorithmes plus lents, mais dont l encodage en mémoire est plus compact. Un bon exemple de ce type d arbitrage est présenté dans Latapy (2008), à propos du nombre de triangles dans un graphe et du coefficient de clustering. Lorsque la complexité d un calcul le rend irréalisable sur un graphe de grande taille, il est parfois possible d approximer le calcul : Magnien et al. (2009) proposent une méthode d encadrement du diamètre d un graphe, qui peut être calculé à partir de quelques parcours en largeur seulement. 1.2 Collecte et analyse de données web Les graphes sur lesquels nous avons travaillé dans le cadre de cette thèse ont été construits à partir de données issues du web. Nous présentons dans cette section les principales méthodes que nous utilisons pour collecter et analyser ces données dans le cadre de notre travail au sein de Linkfluence. Captation des données Le premier enjeu de l analyse de données sur le web concerne la collecte des données elles-mêmes. Cette dernière peut prendre des formes très diverses en raison de la multiplication des formats de publication et de mise à disposition des données qui se sont superposées au fil de l histoire du web. De nouveaux médias sont apparus, comme les micro-blogs, les sites de partage d images et de vidéos, ou les plateformes sociales, tandis que des formes plus anciennes comme les blogs ou bien les forums ont continué à prospérer. Les formats techniques utilisés pour chacune de ces sources ont également beaucoup évolué, certaines pages pouvant encore contenir du code HTML correspondant à des standards datant de plus de dix ans (ou n en respectant aucun!), tandis que d autres génèrent leur contenu de manière dynamique dans le navigateur du client en utilisant des technologies comme le Javascrit et le HTML5. L analyse du contenu des pages collectées ne peut donc pas toujours se limiter à l aspiration du contenu d une page, et il faut dans certains cas pouvoir l interpréter en adaptant des technologies issues du monde des navigateurs web individuels aux contraintes bien différentes d un système de captation à grande échelle 1. De nombreuses plateformes web proposent des API publiques qui permettent de collecter des données sous une forme normalisée, sans avoir recours à une extraction brute de la page. Les données peuvent être mises à disposition sous forme de flux de syndication (Atom ou RSS), mais elles sont le plus souvent proposées dans des formats comme le XML ou le JSON. Cependant, il n existe pas de standard reconnu pour la constitution de telles 1. Le logiciel PhantomJS permet par exemple d émuler le comportement d un navigateur sur un serveur programmé en Javascript :

23 I/1. Concepts et outils 21 API, dont le mode de fonctionnement et d authentification peut varier fortement. Par ailleurs, les politiques de limitation en termes de fréquence des requêtes, de nombre total d appels et de comportement à adopter en cas d erreur est souvent mal documenté et demande en pratique à être adapté après une phase plus ou moins longue d expérimentations. Enfin, ces API peuvent évoluer et introduire des changements qui demandent de modifier le code qui les exploite (en cas de breaking change), et dans les cas les plus extrêmes, elles peuvent être fermées ou être l objet d un remaniement radical de leurs conditions d usage. Dans tous les cas, la collecte s effectue toujours via une connexion réseau, il faut donc adapter le code aux nombreuses erreurs qui peuvent survenir : perte de connexion, latence trop élevée, mais aussi format de retour inattendu ou pouvant comporter des erreurs. Il faut également prévoir pour chaque type d appel des politiques à suivre en cas d erreur : faut-il les ignorer, retenter l appel jusqu à obtenir un succès, ou bien se limiter à un nombre fini d essais? Ces questions sont très liées aux différentes politiques de «politesse» réseau. Il faut en effet s assurer que les appels effectués ne surchargent pas les serveurs de l hôte distant, qu ils respectent les éventuels protocoles d exclusion de robots définis par les administrateurs des sites parcourus, et prévoir des modalités d équilibrage et de répartition des requêtes dans le temps, lorsque cela s avère nécessaire. Filtrage et normalisation des données Un deuxième grand enjeu concerne la normalisation des données collectées, et en particulier celle des urls pour en extraire des informations telles que le site auxquelles elles appartiennent. En effet, la délimitation d un site web ne se limite pas dans tous les cas à l extraction du domaine d une url. De nombreuses plateformes de blogs intègrent leurs blogs sous forme de sousdomaines, mais certaines préfèrent ajouter chaque blog sous la forme d un premier niveau dans le chemin (path) de l url, après avoir indiqué le même domaine. Ces questions ne se limitent pas aux plateformes de contenus : de nombreux sites peuvent être adressés par différents domaines qui pointent sur la même adresse IP, ou bien migrer d un domaine à l autre et conserver des liens et des pages à la fois sur l ancien domaine, tout en continuant de publier sur le nouveau. Le contenu des pages doit également être segmenté, pour faire la part entre le contenu de la page et les sections consacrées à la navigation ou à la publicité. Sans ce type de traitement le contenu analysé risque de contenir une majorité de termes, d urls et d expressions qui sont identiques ou presque pour toutes les pages d un même site et qui peuvent donc biaiser, ou même masquer dans certain cas le contenu réel que l on souhaite analyser. Ce «détourage», qui consite à extraire les contenus des articles des pages HTML, peut être effectué à l aide de méthodes automatiques comme celle

24 22 État de l art proposée par Kohlschütter et al. (2010) ou, dans le cas de plateformes de contenus, avec des systèmes de règles définies à la main. Un troisième niveau d uniformisation consiste à normaliser les urls pour les rendre comparables entre elles. Cette étape est particulièrement importante si on veut agréger les urls (pour compter un nombre de citations par exemple), ou bien pour mettre en place un système de recherche efficace. Une première étape consiste à résoudre les éventuelles redirections des urls pour ne conserver que l url finale : certains médias utilisent par exemple un domaine différent pour leurs flux de syndication et pour leurs articles en ligne. Par ailleurs, de nombreux sites utilisent des paramètres optionnels, qu ils ajoutent soit sous forme de query, soit sous forme de fragment à la fin d une url pour obtenir des statistiques sur les sources de trafic (e.g. savoir si les liens proviennent d un , d une plateforme de microblogs ou d un flux de syndication), ce qui peut entraîner la collecte d une grande variété d urls qui pointent toutes vers le même contenu. En plus d une approche par simple liste de termes à retirer systématiquement, des méthodes statistiques qui visent à repérer les éléments facultatifs à partir de l observation de grands ensembles d urls peuvent être employées. Un travail de normalisation doit aussi être réalisé sur les sources ellesmêmes, pour s assurer de la qualité des données collectées. La détection et le filtrage de spam et de bruit sont une étape essentielle quel que soit le type de source sur lequel on travaille. Ces sources indésirables peuvent correspondre à des publicités agressives, mais aussi à des fermes de liens, ou à des comptes de robots destinés à publier ou à relayer en masse certaines informations. Les sources de bruit peuvent correspondre à des requêtes polysémiques («orange» correspond-il au fruit, à la couleur ou bien à l entreprise?) ou à des sites dont le contenu est sans rapport avec ce que l on cherche à mesurer (captation de flux de commentaires ou de petites annonces au lieu de sélectionner des flux d articles par exemple). Ces problèmes peuvent être limités a priori, en filtrant les sources avant de commencer la captation, mais aussi en appliquant un filtrage a posteriori des résultats pour retirer les contenus non pertinents. De nombreuses méthodes ont été proposées pour détecter et filtrer le spam et le bruit. Certaines reposent sur de l analyse topologique de graphe, et proposent de définir des scores de spam et de sources fiables, à la manière des hubs et des autorités du HITS proposé par Kleinberg (1999)). D autres utilisent des méthodes d apprentissage supervisé, à partir de corpus pré-tagués. Ces méthodes sont souvent complétées en pratique par des interventions humaines, qu il s agisse d entraîner des classifieurs ou de corriger directement des sources non désirées.

25 I/1. Concepts et outils 23 Prise en compte de l expertise humaine La définition de la part d intervention humaine dans les traitements de données est essentiellement liée à la notion de qualité des résultats, qu il s agisse de l évaluer ou bien de tenter de l améliorer. Bien sûr, la notion de qualité est très subjective, et dépend largement des objectifs de collecte et d analyse qu on s est fixé. Son évaluation pourrait s apparenter à une forme détournée du «test de Turing» : un résultat peut être jugé de qualité si l humain qui l évalue ne peut déterminer s il a été produit par une machine ou par un autre humain. L intégration d une «expertise humaine» vise à atténuer la marge d erreur présente dans toute méthode automatisée, mais pose le problème du passage à l échelle. Même si des services comme Amazon Mechanical Turk permettent d automatiser le recrutement et l exploitation d un nombre important de participants, le traitement intégral de données web par l humain reste irréalisable (indépendamment des questions éthiques soulevées par ce type de dispositif), à la fois en raison du coût, sans commune mesure avec celui de méthodes automatiques, et parce que l accroissement du nombre d experts humains pour réaliser une tâche ne peut s effectuer qu au prix d une réduction, à terme, de leur niveau de formation, et donc de la qualité de la tâche accomplie. Un bon compromis consiste donc à former quelques experts et à leur donner les moyens de corriger et d orienter le système, si nécessaire. On peut aussi paramétrer le système pour qu il identifie les situations dans lesquelles il n est pas en mesure de prendre une décision fiable, et pour qu il s en remette alors à une intervention humaine, dont on cherchera à minimiser le nombre. Cela suppose d adapter les méthodes et les logiciels de traitement des données, mais aussi de disposer d indicateurs fiables permettant de détecter des anomalies et des cas critiques pour les corriger. Ces enjeux concernent la conception des bases d apprentissage des algorithmes de classification supervisée, mais aussi les dictionnaires utilisés dans le cadre d algorithmes de traitement du langage, et les systèmes de maintenance et de développement de corpus thématiques. Enrichissement des données L analyse des contenus extraits pose également des difficultés en terme d analyse multimédia et de technologies de text-mining. En pratique, les données issues du web sont essentiellement consituées de textes, qu il faut savoir nettoyer, classer et analyser. La difficulté repose à la fois dans la variété des sources et des types de contenus que l on peut extraire. La plupart des techniques actuelles de classification utilisent des algorithmes supervisés. Pour bien fonctionner, ces méthodes vont tout d abord nécessiter une étape d extraction de mots et d expressions. Cette extraction permet tout d abord d améliorer la précision des classifieurs, en ne sélectionnant que des entités

26 24 État de l art sémantiquement pertinentes. Elle permet également d accélérer le temps de traitement en réduisant le nombre d éléments à traiter par l algorithme. Les textes collectés peuvent varier radicalement en longueur (de quelques caractères pour un tweet, jusqu à plusieurs milliers pour des articles de média en ligne), en niveau de langue (nombre de fautes d orthographe, emploi d abréviations ou d argot), ainsi qu en style de rédaction. Les techniques d extraction et de classification doivent donc être calibrées pour tenir compte de cette diversité, tout en restant suffisamment génériques pour rester faciles à maintenir. Cela demande en pratique un important travail de calibrage et d expérimentation sur des textes de nature et de domaines très variés. Il est également très utile de disposer de ressources et de dictionnaires permettant d identifier des entités nommées telles que les noms de personnes, de lieux ou bien d organisations. Ces listes sont chronophages à constituer et à maintenir, il est donc nécessaire de mettre en œuvre des méthodes permettant de les générer automatiquement, comme par exemple la méthode des conditional random fields (Finkel et al., 2005; Sutton & McCallum, 2010), si on veut pouvoir exploiter ce type d informations sur des corpus hétérogènes et dans la durée (essentiellement en raison de l apparition de nouveaux acteurs ou concepts). 2 Contexte scientifique Cette section a pour objectif de présenter les principaux domaines qui ont guidé la réalisation de cette thèse. Le premier concerne les graphes de terrain (ou complex networks en anglais), le deuxième les études à grande échelle sur la structure et les dynamiques des blogs et sites de médias sociaux, et le troisième concerne le cadre spécifique de Linkfluence en tant qu institut d étude spécialisé dans le social media intelligence. 2.1 Les graphes de terrain Les graphes permettent de modéliser de nombreuses configurations issues du monde réel. Les sommets correspondent alors à des objets et les liens aux relations qu ils entretiennent entre eux. Il peut s agir de réseaux de transport (routes et voies aériennes) et de communication (téléphonie, réseau Internet), mais aussi de réseaux issus du web (graphe du web), de réseaux sociaux (relations de contacts) ou encore de réseaux d usage (comme les réseaux de co-citation dans les articles scientifiques). Ces graphes ne sont pas définis de manière formelle, ce qui les distingue des familles de graphes étudiées en théorie des graphes (comme les graphes aléatoires, les graphes réguliers ou les graphes simpliciaux par exemple). La forte augmentation des données disponibles au cours des années 1990 a permis de réaliser une suite de travaux qui ont abouti à la constatation que ces graphes partagent souvent des propriétés structurelles, qui leur ont valu

27 I/2. Contexte scientifique 25 d être regroupés sous une appelation commune, de complex networks Watts (1999); Barabási (1999), que nous traduirons par graphes de terrain. Les caractéristiques communes Ces graphes se caractérisent en premier lieu par une distribution hétérogène des degrés de leurs sommets. De tels graphes sont appelés des graphes sans échelle (scale-free networks), car il n existe pas de sommet représentatif, en raison des grandes différences d ordre de grandeur entre leurs degrés. Plutôt que d être caractérisée par une moyenne, comme c est le cas pour une distribution normale, la distribution des degrés est souvent assimilée à une loi de puissance. En pratique, le modèle des lois de puissance n est pas toujours le plus adapté pour caractériser les distributions observées (surtout pour des jeux de données de taille modeste), mais ces distributions sont généralement fortement hétérogènes, et mal résumées par une moyenne. Une deuxième caractéristique importante de ces graphes est une distance moyenne et un diamètre courts. Cette observation, relevée dès 1967 dans le cadre d une des fameuses expériences de Milgram (1967) et confirmée par les mesures de grands réseaux à partir des années 1990 (Albert et al., 1999; Dodds et al., 2003; Leskovec et al., 2007), jusque récemment sur le réseau de Facebook, à travers le travail de Backstrom et al. (2012), est souvent résumée sous l idée des «six degrés de séparation», qui sépareraient en moyenne deux personnes choisies au hasard dans la population mondiale. On parle alors de réseaux petit monde (small world). On observe en effet que le diamètre est beaucoup plus faible que le nombre de sommets, possiblement de l ordre du logarithme du nombre de sommets dans le graphe. Ces graphes se caractérisent également par une faible densité, essentiellement parce que le nombre de liens possibles est proportionnel au carré du nombre de sommets. A degré moyen constant, la densité va donc décroître fortement en fonction de la taille du graphe. En pratique, les algorithmes de traitement des graphes de terrain s appuient sur cette caractéristique pour proposer des structures de données compactes et efficaces. Enfin, on observe sur ces graphes de fortes densités locales, c est-àdire un nombre important de triangles. Cela implique que deux sommets ont significativement plus de chances d être connectés s ils partagent un voisin en commun. Cette caractéristique joue un rôle essentiel dans la morphologie des grands réseaux, dans la mesure où elle peut conduire à la constitution de zones denses qui peuvent permettre de délimiter les contours de communautés. Modèles de génération Ces propriétés permettent essentiellement de les distinguer des graphes aléatoires qui sont étudiés depuis bien plus longtemps (Erdös & Renyi, 1959),

28 26 État de l art et permettent de décrire à la fois les caractéristiques communes et celles qui sont plus spécifiques à cet ensemble de graphes. La méthode consiste alors à générer un graphe contenant le même nombre de liens et de sommets, tiré uniformément parmi toutes les configurations possibles. Si on compare un graphe de terrain avec un graphe aléatoire de même nombre de liens et de sommets, on oberve que les graphes aléatoires ont également un diamètre court et une faible densité. Comme le calcul de la densité dépend des deux paramètres qui permettent de générer le graphe aléatoire, la densité est toujours la même pour un nombre de sommets et de liens donné. Le faible diamètre est moins intuitif, mais peu surprenant : les graphes avec un diamètre élevé sont relativement rares, et correspondent à des configurations très particulières. On peut par exemple réduire fortement le diamètre d une grille régulière en ajoutant quelques liens au hasard. Les deux autres propriétés diffèrent cependant fortement entre les graphes de terrain et les graphes aléatoires. Les graphes aléatoires ont en effet une distribution de degrés homogène, et peuvent donc être bien caractérisés par leur degré moyen. Le modèle d attachement préférentiel (Barabási, 1999) permet de proposer un modèle de génération de graphe dans lequel on part d un graphe vide et on ajoute les sommets au fur et à mesure en les reliant aux sommets précédents avec une probabilité proportionnelle à leur degré. Cela conduit à une configuration dans laquelle les sommets de plus fort degré reçoivent de plus en plus de liens (on parle souvent de «rich get richer»), et permet d obtenir des distributions similaires à celles des graphes réels. Le modèle de l attachement préférentiel ne permet pas d obtenir des densités locales élevées. En l absence de modèle efficace pour générer de tels graphes, Guillaume & Latapy (2006) proposent d expliquer la formation des triangles par la projection d un graphe biparti. Les graphes de terrain seraient une manifestation de graphes biparti dont nous ne pourrions mesurer que la projection, et un triangle serait observé lorsque trois sommets partagent une même affiliation, et donc un même voisin dans le graphe biparti d origine. Cette méthode est intéressante, car le modèle qu elle propose nous semble très réaliste (une clique observée sur le terrain regroupe souvent les personnes d une même famille, des collègues de bureau, ou les membres d un même groupe d amis par exemple), et il permet de générer efficacement différents graphes contenant le même nombre de triangles. Cependant, il suppose de générer un graphe biparti correspondant au graphe observé et, en pratique, cette opération est complexe car il existe de très nombreuses combinaisons possibles. Il n existe donc pas à ce jour de modèle satisfaisant permettant d obtenir à partir d un graphe réel l ensemble des graphes réunissant l ensemble des caractéristiques : nombre de sommets et de liens (et donc densité), distribution des degrés, et nombre de triangles. Un très grand nombre d algorithmes appliqués à ces graphes repose pourtant sur la comparaison des configurations observées avec l un de ces modèles afin de détecter des configurations

29 I/2. Contexte scientifique 27 qui s écartent du modèle choisi et méritent donc d être soulignées. Mesure et métrologie Par définition, les graphes de terrain ne peuvent être étudiés que par une opération de mesure. Il est alors essentiel de s interroger sur les erreurs éventuelles qui peuvent survenir lors de cette opération, et sur les biais qu elles peuvent introduire. Cette question se pose avec encore plus de force lorsque l objet que l on souhaite étudier ne peut être mesuré dans son intégralité, soit en raison de sa taille (le graphe du web ou le réseau Internet), soit lorsque la mesure nécessite un intermédiaire et peut donner des résulats partiels (limitations de l API, ou réseau déclaré par les personnes elles-mêmes). Il est donc essentiel de s interroger sur les biais éventuels qui peuvent être introduits dans le cadre de la mesure, en particulier dans le cas où l on échantillonne les données. Plusieurs pistes peuvent être suivies : Latapy & Magnien (2006) et Latapy & Magnien (2008) construisent des échantillons de différentes tailles pour un même graphe et évaluent la stabilité des mesures lorsqu on les applique sur les graphes ainsi obtenus. Benamara & Magnien (2010) proposent d augmenter la période de temps de mesure jusqu à ce que la caractéristique observée se stabilise, c est-à-dire jusqu à ce que l augmentation de la fenêtre de temps d observation n ait plus de répercussion sur la mesure observée. On peut alors émettre l hypothèse que la fenêtre de temps considérée est suffisament importante, ce qui permet à la fois d avoir une estimation (que l on espère fiable) de la mesure et une fenêtre de temps qui caractérise la robustesse du graphe observé. Un autre exemple de méthodologie est présenté dans Tarissan et al. (2009). L objectif est de mesurer des graphes réels en supposant qu il est seulement possible de demander si un lien existe entre deux sommets. Les auteurs proposent alors différentes stratégies, qui s appuient sur les principales caractéristiques des graphes de terrain (degrés hétérogènes et densité locale forte). Ils évaluent les résultats obtenus pour chaque stratégie, en simulant leur application sur un graphe connu a priori. Cette méthode leur permet d évaluer quels indicateurs peuvent être estimés de manière efficace, en fonction de la stratégie adoptée. Les graphes de terrain permettent de modéliser efficacement les données issues du web, et proposent un cadre d analyse efficace pour les exploiter. Ces données sont le plus souvent le résultat d une opération de mesure sélective, il est donc essentiel de tenir compte du mode de construction des graphes que l on étudie pour comprendre les éventuels biais qui en découlent. 2.2 Recherche sur le «web social» Notre travail porte sur le web social, c est-à-dire un web dans lequel les internautes interagissent, créent du contenu et entretiennent des conversa-

30 28 État de l art tions. Nous nous intéressons donc aux blogs, mais aussi aux sites de médias en ligne, dont les contenus sont abondamment partagés et commentés, ainsi qu à deux principaux sites sur lesquels ces partages sont le plus souvent réalisés : Twitter et Facebook. Nous étudions aussi le site Flickr, en raison du grand nombre d interactions suscitées par le partage et le commentaire de photographies. Tous ces espaces encouragent fortement les interactions entre leurs utilisateurs, en s appuyant sur de nombreux mécanismes comme l échange de commentaires, l enregistrement de «favoris» ou la création de listes. Ces échanges sont le plus souvent renforcés par des mécanismes d abonnement, qui permettent aux utilisateurs d être informés lorsque leurs contacts publient de nouveaux contenus : il peut s agir de l utilisation de flux RSS, d abonnement à une source d information ou d ajout de contact. Ces espaces créent de très nombreuses relations, ce qui en fait des terrains très intéressants pour l analyse de grands graphes. Ils permettent aussi d étudier la dimension temporelle de ces relations : les publications sont le plus souvent présentées sous forme de timelines, avec une mise en avant des éléments les plus récents. Les mécanismes de partage ou de vote permettent d étudier la diffusion de l information et la construction de l autorité. Ces différents espaces posent aux chercheurs des probématiques communes, et ils sont souvent analysés avec les mêmes outils théoriques et techniques, ce qui permet, en appliquant les mêmes mesures et protocoles d analyse, de faire ressortir les spécificités de chacun. Nous présentons dans cette section les différents espaces que nous avons étudiés : la blogosphère, Flickr, Twitter, et Facebook. Nous présenterons ensuite les questions transversales qui guident l analyse de ces espaces, les méthodes utilisées, et les applications qui en sont faites. La «blogosphère» Un blog (contraction de web log, qui signifie «journal en ligne») prend la forme d un site personnel qui est organisé en une succession d articles, que l on appelle posts ou billets. Le plus souvent (mais ce n est pas toujours le cas), un blog a un seul auteur et est consacré à un sujet en particulier. Les articles les plus récents apparaissent en premier sur la page principale, ce qui permet aux lecteurs de lire facilement les dernières mises à jour. Les auteurs des blogs échangent souvent des liens avec d autres blogs qui traitent d un même sujet, ou avec des auteurs avec qui ils ont des affinités. Ces liens peuvent prendre la forme d une blogroll, qui est une liste de blogs que l auteur recommande à ses lecteurs et qui apparaît le plus souvent à côté de l article le plus récent. La blogroll permet ainsi aux blogs de mutualiser une partie de leur audience en se recommandant entre eux. Les liens sont souvent ajoutés dans le corps des articles, lorsque les auteurs souhaitent partager une information ou la discuter. Les liens échangés contribuent souvent à forger

31 I/2. Contexte scientifique 29 des amitiés entre les «blogueurs», qui espèrent le plus souvent recevoir un lien réciproque lorsqu ils se citent entre eux. La plupart des blogs sont dotés d un système de commentaires qui permet aux lecteurs d interagir avec les auteurs. Ces échanges permettent parfois l établissement de véritables conversations et constituent souvent une forme de rétribution symbolique des auteurs pour leur travail. Enfin, les blogs sont souvent dotés de systèmes de syndication de contenus : il s agit de documents qui permettent de rendre automatiquement disponible une partie des contenus en proposant un fichier qui contient l entête des derniers articles publiés (les formats les plus répandus sont RSS et Atom). Ces fichiers permettent aux lecteurs d être informé lors de la mise à jour d un blog auquel ils se sont abonnés, en utilisant un logiciel qui agrège les flux de syndication et qui compare les dates des dernières publications. La blogosphère, qui est consituée de l ensemble des blogs, est structurée par de nombreux échanges, avec des phénomènes de concentration des liens hypertextes ou des commentaires. Elle a été très étudiée dès son essor, au début des années 2000 : Kumar et al. (2003) ont insisté sur son développement très rapide et sur la forte connectivité interne qui la caractérise. Cette structure particulière en fait un terrain idéal pour étudier des phénomènes de diffusion de l information (Adar et al., 2004; Gruhl et al., 2004; Cha et al., 2009b). Leskovec et al. (2009) s intéressent en particulier aux relations entre les blogs et les médias et montrent que l agenda de l information reste dominé par les sites de médias, tandis que les blogs reprennent les nouvelles avec quelques heures de retard, mais s y intéressent plus longtemps. D autres auteurs, comme Marlow (2004) ont étudié les hiérarchies créées par ces échanges de liens, et ont proposé des méthodes de mesure de leur autorité. Herring et al. (2005) ont proposé une analyse de l organisation hiérarchique de la structure relationnelle de la blogosphère. Efimova & de Moor (2005) insistent sur le rôle essentiel des commentaires pour la construction, sous une forme conversationnelle, de la blogosphère, malgré leur distribution très hétérogène (Mishne & Glance (2006) montrent qu elle suit une loi de puissance). Ce rôle de conversation peut se traduire de manière différente en fonction du sujet du blog et des motivations de son auteur. Cardon et al. (2007) proposent une typologie des blogs en fonction des objectifs de leurs auteurs et de la manière dont ils s inscrivent au sein d un groupe. Cardon (2008) étend cette typologie aux différents sites qui composent le «web 2.0», et insiste sur la diversité d usage des blogs et leur articulation avec d autres types de sites. Flickr Flickr est un site de partage de photographies qui s est distingué en encourageant ses utilisateurs à rendre leur photographies publiques par défaut. Cette politique de visibilité large vise à favoriser les opportunités de

32 30 État de l art contact et d interactions entre utilisateurs. Elle est renforcée par de nombreux mécanismes : les utilisateurs ont la possibilité d annoter les photos à l aide de «tags», c est-à-dire des mots clés librement choisis, qui permettent de réaliser un classement personnalisé. Ils peuvent aussi «commenter» les photos, ou bien les ajouter dans leurs «favoris» pour pouvoir les retrouver facilement par la suite ou pour les mettre en valeur. Le site s est également doté de fonctions «communautaires», qui ont pour but de faciliter les échanges entre utilisateurs. Ceux-ci peuvent définir des listes de contacts, ce qui a pour effet principal d afficher les dernières photographies des contacts sur la page d accueil de l utilisateur. Ils peuvent aussi s inscrire dans des «groupes» d utilisateurs qui peuvent être consacrés à une thématique particulière ou avoir une fonction plutôt conversationnelle. Ces questions sont détaillées dans Beuscart et al. (2009), qui étudient l activité des utilisateurs de Flickr en s appuyant sur l extraction de l ensemble de l activité publique du site, depuis sa création en 2004 jusqu en Les auteurs insistent en particulier sur la grande diversité des pratiques, en montrant que le réseau fait coexister différentes stratégies de filtrage et de classification des photographies, à travers la création de groupes thématiques par exemple. Lerman & Jones (2007) proposent le concept de «navigation sociale» pour décrire la manière dont les utilisateurs tirent parti des nombreuses fonctions proposées par le site pour filtrer et rechercher des photographies intéressantes, en particulier en naviguant d une page à l autre en suivant les liens tissés entre les utilisateurs. D autres travaux ont tenté de mesurer la structure du site lui-même : Kumar et al. (2006) étudient l évolution de la structure des réseaux Flickr et Yahoo! 360 et proposent une classification des membres de Flickr en trois catégories : ceux qui appartiennent à la composante principale, et qui représentent près de la moitié du réseau, ceux qui sont isolés et ceux qui appartiennent à de petites communautés, souvent structurées en étoile. Ils montrent que les réseaux étudiés traversent trois grandes étapes dans leur évolution, qui se caractérisent par des comportements différents de la densité, du diamètre et de la taille relative de la composante connexe principale avant d aboutir à une stabilisation de ces trois mesures. Dans Cha et al. (2008) et Cha et al. (2009a), les auteurs s intéressent à la diffusion des photographies à travers l ajout en «favoris» et montrent que les plus populaires sont le plus souvent choisies par des utilisateurs qui se trouvent à très faible distance du propriétaire de la photographie. Ils montrent aussi que la courbe d évolution est régulière, sauf dans le cas d un évènement extérieur au réseau qui produit des pics d ajouts. Twitter Twitter est un service de «micro publication» (ou micro blogging) : le principe est de permettre aux utilisateurs de partager des messages courts,

33 I/2. Contexte scientifique 31 appelés tweets, que nous appellerons aussi statuts, par analogie avec la terminologie utilisée pour Facebook. Ce dispositif éditorial, qui fonctionne sur le même modèle que les blogs est enrichi par un réseau d abonnements que les utilisateurs contractent entre eux de manière asymétrique. Les utilisateurs peuvent consulter les messages de leurs contacts sur leurs pages respectives, mais ces informations sont également regroupées sur une page de synthèse, la timeline : les publications de chaque auteur y apparaissent mêlées au sein d un même fil de messages, toujours du plus récent au plus ancien. Cette synthèse facilite la consultation des publications, puisque les utilisateurs n ont pas besoin de consulter la page de chaque contact pour y découvrir les nouveaux messages publiés. La juxtaposition des messages permet ainsi aux utilisateurs de se répondre par tweet interposé, et de créer ainsi de véritables fils de discussions. Twitter a d abord été pensé pour permettre aux utilisateurs de partager ce qu ils faisaient en échangeant avec un ensemble de contacts des messages par SMS, ce qui a conduit le service à adopter des limitations importantes dans la taille des messages : 140 caractères au maximum. Le site a fait le pari de l ouverture maximale de son contenu en rendant les messages des utilisateurs publics par défaut (c est-à-dire accessibles à tous depuis le web), et en proposant une interface de programmation (API ) très ouverte qui a permis aux utilisateurs de proposer de nombreux programmes qui enrichissent le service. C est le cas par exemple du moteur de recherche interne de Twitter, qui a d abord été créé en tant que service indépendant avant d être racheté par la plateforme et intégré dans l interface. Cette stratégie s est révélée payante : le service a connu un grand succès depuis ses débuts en 2007, et le nombre de comptes était évalué à 11,5 millions à travers le monde en juin Ce succès est d autant plus spectaculaire que le service se limite essentiellement à la publication de messages courts et à la gestion des listes de contacts. Les publications étaient purement textuelles à l origine, mais le service s est progressivement enrichi, sur initiative de ses utilisateurs, de conventions qui permettent d expliciter dans les messages les références à d autres utilisateurs, à des sujets ou à un message déjà publié. Le préfixe «@» précédant un identifiant d utilisateur permet de citer une personne : «@straux» désignera l utilisateur dont le pseudonyme sur Twitter est «straux». Cette convention permet de s adresser explicitement à un utilisateur lorsqu elle est placée au début du message, ou plus généralement à citer une ou plusieurs personnes : nous parlerons alors de «mention» d un utilisateur. On peut associer un message à un ou plusieurs thèmes en lui associant un hashtag : on utilise le préfixe «#» suivi d un mot-clef («#twitter», «#france», par exemple). Les messages qui contiennent le même hashtag peuvent être regroupés à l aide du moteur de recherche et constituer des fils d information thématiques. Lorsqu un utilisateur veut citer un message, il peut le recopier en le faisant précéder du préfixe «RT» (pour retweet), suivi du nom de l auteur du

34 32 État de l art message original : signifie que l on cite un message de «straux». Toutes ces conventions ont été intégrées a posteriori dans l interface du service et se matérialisent aujourd hui par des liens hypertextes dans les messages et des fonctions spécifiques, comme la possibilité de reconstituer des fils de conversation à partir des messages échangés qui contiennent des mentions. Le site Twitter a été très étudié, en raison de son succès, de sa volumétrie et du caractère public d une grande partie de ses messages. De nombreux auteurs, comme Krishnamurthy et al. (2008) ont dans un premier temps cherché à caractériser ses utilisateurs à partir de crawls partiels, mais dès les premières années du service, des chercheurs ont réalisé une captation complète des données publiques (Cha et al., 2010; Kwak et al., 2010). Dans ces deux articles, les auteurs ont étudié l emploi des différents mécanismes de partage (retweets, mentions, et hashtags) dans les messages, et montrent qu ils renvoient à deux fonctions principales. La première se rapproche d un réseau social traditionnel et s articule autour des mentions d utilisateurs, à travers l établissement de conversations. La deuxième concerne le partage et le retweets d urls et de messages, ce qui permet une diffusion rapide de l information. Ces différents aspects sont également soulignés par Naaman et al. (2010), qui ont procédé à une étude qualitative d un échantillon des utilisateurs et proposent de distinguer les meformers, qui ont des pratiques de conversation et parlent surtout de sujets personnels, et les informers, qui s intéressent d avantage à l actualité et privilégient la sélection et le relais des informations qu ils jugent pertinentes. De nombreux auteurs ont proposé d exploiter le flux de messages publiés sur Twitter pour détecter des variations en temps réel de citations et proposer des modèles de prédiction sur des domaines aussi variés que le succès de films au box office américain (Asur & Huberman, 2010), l évolution de la bourse (Bollen et al., 2010) ou la détection d informations populaires dans les médias (Bandari et al., 2012). Certains, comme Gayo-avello & Metaxas (2011) mettent cependant en garde contre ce mouvement et insistent sur les limites de telles approches dans le contexte de la prédiction des résultats d une élection. La diffusion de l information sur le site consitue un deuxième axe de recherche très étudié, en particulier pour définir et détecter des «influenceurs» (Ecology & Pub, 2009). Romero et al. (2011) proposent de calculer pour chaque utilisateur un score d influence et un score de passivité en tenant compte à la fois de la capacité des utilisateurs à recevoir des retweets et de la proportion de messages qu ils acceptent eux-mêmes de relayer. Ils comparent les scores obtenus avec le nombre de clics reçus par les urls qui sont mentionnées dans les tweets pour valider leur indicateur. Wu et al. (2011) sélectionnent un groupe d utilisateurs «d élite» qui correspondent

35 I/2. Contexte scientifique 33 à des utilisateurs influents qui jouent un rôle de relais entre les médias et le reste des utilisateurs pour la sélection des nouvelles les plus importantes. Ces définitions des influenceurs trouvent leur application dans des travaux qui cherchent à maximiser la diffusion des messages, et donc le succcès d une campagne de communication sur Twitter (Suh et al., 2010; Chaoji et al., 2012). À l inverse des influenceurs, la caractérisation de profils d utilisateurs peut également être utilisée dans la problématique de la détection ou de la prévention du spam (Ghosh et al., 2012). D autres travaux ont cherché à modéliser le comportement des utilisateurs, en étudiant la manière dont les liens se créent (Romero & Kleinberg, 2010) ou se défont (Kivran-Swaine et al., 2011). Malgré l importante croissance du site depuis sa création, une récente étude s est appuyée sur le graphe complet des liens d abonnement entre utilisateurs de Twitter, et en décrit l articulation de différentes régions sur la base d une analyse de composantes fortement connexes (Gabielkov et al., 2014). La richesse des informations fournies par Twitter se traduit aussi par des questionnements plus originaux, comme l analyse de l orientation politique des médias et de leur polarisation (Conover et al., 2011; An et al., 2011). Facebook Facebook se présente comme un site de «réseau social» : il permet à ses membres de créer un profil, de l alimenter en partageant des publications et des contenus avec leurs contacts, et de contrôler leur visibilité. Fondé en 2004 à l Université de Harvard, le site a été réservé dans un premier temps aux campus des universités américaines, avant de s ouvrir à tous les utilisateurs dès Facebook propose à ses utilisateurs de créer un réseau d «amis» au moyen de liens réciproques. Ces amis peuvent être placés dans des listes (comme les amis proches, la famille, les collègues, etc.) qui permettent de filtrer les publications des contacts et de paramétrer ce que chaque liste peut voir de l activité et des publications de l utilisateur. Cette activité s articule autour de deux pages principales : le mur, et le fil d actualité (newsfeed en anglais). Le mur correspond à la page de profil d un utilisateur. Il affiche, en plus du profil déclaratif, l activité récente, et permet à l utilisateur et à ses contacts de partager des statuts, des liens vers des articles ou des documents multimédia. Les contacts peuvent eux aussi publier des messages sur le mur d un utilisateur, et chaque publication peut faire l objet de commentaires ou de likes. Les likes permettent de déclarer de manière simple et rapide son intérêt pour une publication, en cliquant sur un bouton «j aime». Le fil d actualité regroupe l ensemble des publications récentes des amis, et propose donc à chaque utilisateur un forme de revue de presse de l activité de son réseau. Facebook sélectionne les publications qui y paraissent en

36 34 État de l art effectuant un «filtrage social» dont les critères exacts sont changeants et peu, voire non documentés. Ils tiennent compte entre autres des préférences de l utilisateur vis à vis de ses contacts, du type de message, et du nombre de likes et de commentaires que la publication a suscités. D autres pages permettent aux utilisateurs d organiser des évènements, de créer des groupes, ou de s abonner aux publications de pages, qui fonctionnent comme des profils pouvant être consacrés à des causes, des personnalités publiques ou même des marques. Facebook a constitué au fil du temps un système très riche, qui est régulièrement mis à jour pour intégrer de nouvelles fonctions. Les utilisateurs sont encouragés à renseigner des informations relevant de leur vie privée, et la plateforme propose de nombreux paramètres qui permettent de limiter l accès de ces informations à certains groupes de contacts. En raison du caractère sensible des données issues de Facebook, les profils des utilisateurs sont privés par défaut, ce qui rend le service plus difficile à étudier que des plateformes plus ouvertes, comme Twitter ou Flickr. Certaines études ont été réalisées sur des données extraites dans les premières années du service, à un moment où les profils des utilisateurs étaient publics pour l ensemble des membres qui appartenaient à un même groupe. Viswanath et al. (2009) ont ainsi pu collecter et étudier le réseau des utilisateurs de la Nouvelle Orléans. Ils montrent que des mesures globales sur le graphe des amis (la distance moyenne, le degré moyen, et le coefficient de clustering) restent stables dans le temps, malgré des variations de ces mêmes mesures si l on s intéresse aux individus eux-mêmes. La prise en compte des questions de vie privée autant que la protection contre la concurrence ont conduit Facebook à limiter de plus en plus l accès aux données, et il est aujourd hui très difficile de constituer un jeu de données de grande taille sans s associer avec les équipes de recherche de Facebook. L accès direct aux données de Facebook permet par exemple de travailler sur le graphe des contacts dans son ensemble. Backstrom et al. (2012) calculent le diamètre du graphe des amis de Facebook et constatent que la distance moyenne est de 4.74, en s inscrivant dans le courant de recherche inspiré par Milgram (1967) et sa fameuse hypothèse des «six degrés» de séparation. Les collaborations avec Facebook permettent également de travailler sur des indicateurs qui ne sont pas toujours disponibles publiquement pour étudier les comportements des utilisateurs de la plateforme. C est le cas de Backstrom et al. (2011), qui s appuient sur les statistiques d audience et d activité à l intérieur du site pour étudier la répartition de l attention de chaque utilisateur entre ses contacts. Ils montrent qu en moyenne, plus les utilisateurs sont actifs et plus ils concentrent leur attention sur quelques contacts. Ce travail est complété par Backstrom & Kleinberg (2014), qui proposent de mesurer la force des relations dans le réseau en prenant en compte le

37 I/2. Contexte scientifique 35 nombre de groupes différents avec lesquels un ami est en contact, plutôt que de mesurer seulement le nombre d amis communs. En effet, un groupe d amis s organise souvent sous forme de clique, ce qui entraine la création de nombreux contacts avec beaucoup d amis en communs qui ne correspondent pas nécessairement à des relations privilégiées. A l inverse, un ami qui a des contacts communs avec de nombreux groupes connaît plusieurs contextes de sociabilité de l utilisateur. Cette mesure, qu ils appellent «dispersion», leur permet de détecter avec succès des couples dans le réseau Facebook. D autres auteurs ont étudié l influence des contacts et l intensité des relations en réalisant des expériences de diffusion de contenus sur la plateforme. Bond et al. (2012) ont ainsi mené une expérience de mesure de recommandations politiques lors de la campagne pour les élections du congrès américain, en 2010, en diffusant des messages auprès de 61 millions d utilisateurs. Ils ont observé que les messages ont eu un impact sur les prises de positions politiques des utilisateurs qui les ont reçus, mais aussi sur les amis de ces personnes. Une autre expérience de diffusion de contenus a été menée par Bakshy et al. (2012). Les auteurs ont analysé le partage et la diffusion de 253 millions de liens vers des articles. Ils constatent que les contacts les plus proches jouent individuellement un rôle important, mais que les recommandations agrégées issues des liens faibles, plus abondantes, ont un poids collectif plus important. Le grand nombre d utilisateurs de la plateforme permet à Facebook d entreprendre des expériences sur de très grands volumes de données, mais le caractère souvent privé des informations qui y transitent peut poser des problèmes de déontologie. Kramer et al. (2014) ont mis en place un dispositif consistant à modifier l algorithme utilisé par Facebook pour sélectionner les messages affichés dans le flux d actualité de utilisateurs, sur une période de deux semaines. Les auteurs constatent que ces modifications influencent les utilisateurs : ceux-ci publient plus de messages positifs si on affiche moins de messages négatifs dans leur fil d actualité, et plus de messages négatifs si on réduit le nombre de messages positifs. La publication de cet article a suscité de vives critiques de la part de nombreux utilisateurs et de chercheurs, qui reprochaient aux auteurs de ne pas avoir demandé explicitement l accord des utilisateurs qui ont été étudiés. Les plus virulents ont également reproché aux chercheurs d avoir tenté de «manipuler» les émotions des utilisateurs, en particulier pour ceux qui recevaient un flux d actualité moins «positif». Cela a conduit les auteurs de l article à publier des excuses et à reconnaître que les résultats obtenus dans le cadre de cette recherche ne justifiaient pas l ampleur du dispositif mis en place au sein de la plateforme.

38 36 État de l art Questions transversales Ces espaces posent aux chercheurs des problématiques similaires, et les méthodes appliquées pour y répondre peuvent souvent être adaptées d un espace à un autre pour les comparer et identifier leurs spécificités. Un premier axe d analyse consiste à étudier la dynamique de ces réseaux, c est-à-dire la manière dont leur structure varie dans le temps, pour déterminer leur morphogénèse (la manière donc leur structure se constitue) et prédire leur évolution. Ces travaux reposent le plus souvent sur une étape de mesure, qui permet ensuite aux auteurs de proposer des modèles qui permettent de générer des réseaux aux caractéristiques mesurées. Kumar et al. (2000) proposent d enrichir le modèle de génération de graphes aléatoires d Erdös-Rényi en introduisant des sommets qui copient des relations de leurs voisins au lieu d en créer de nouvelles au hasard. Ce mécanisme leur permet d obtenir des distributions de degrés et des densités locales qui correspondent davantage aux mesures obtenues sur le web. Mcglohon et al. (2007) et Leskovec et al. (2008b) s intéressent à l évolution des réseaux de blogs. Ils s appuient eux aussi sur des mécanismes de copie de liens pour reproduire à la fois les distributions de degrés observées et celle des cascades de diffusions des articles. D autres travaux de mesure de la dynamique des réseaux permettent de déterminer de nouvelles caractéristiques : Leskovec et al. (2007) observent que les graphes de terrain se densifient au fil du temps, et que leur diamètre diminue. Kumar et al. (2006) obtiennent des résultats similaires en étudiant l évolution de deux sites de réseaux sociaux (Flickr et Yahoo! 360). Ils observent en particulier que le degré moyen suit une évolution en trois phases, avec d abord un accroissement très rapide, puis une baisse, avant de reprendre un accroissement plus régulier qui coïncide avec la stabilisation de la structure globale du graphe. Mislove et al. (2008) observent que les liens créés sur Flickr sont influencés par un mécanisme de réciprocité et par un biais de proximité : 62% des relations observées sont symétriques, et 80% des nouvelles relations ont lieu entre deux utilisateurs qui se trouvent à une distance de 2. Romero & Kleinberg (2010) s intéressent au même phénomène sur le réseau de Twitter, et montrent que la transitivité joue un rôle dans la création de nouveaux liens : les utilisateurs choisissent souvent leurs nouveaux contacts parmi les contacts des contacts qu ils possèdent déjà. Un deuxième axe d analyse concerne la détection de communautés, c està-dire l identification de groupes de sommets qui sont particulièrement connectés entre eux par rapport au reste du graphe. On parle alors de partitions ou de clusters pour désigner les groupes de sommets ainsi découverts. Gibson et al. (1998), puis Flake et al. (2000) ont proposé d exploiter la structure des liens hypertexte et d employer des méthodes d analyse issues de la théorie

39 I/2. Contexte scientifique 37 des graphes pour détecter des communautés sur des réseaux de sites web. De nombreuses méthodes s appuient sur la mesure de modularité, qui est proposée par Newman (2004). Il s agit d un score qui permet de mesurer la qualité d une partition d un graphe en communautés en fonction du nombre de liens qui associent deux sommets d une même communauté, et du nombre de liens qui associent deux communautés différentes. Le meilleur score est obtenu lorsque les communautés correspondent à des cliques, c est-à-dire des groupes dans lesquels tous les individus sont reliés entre eux, et qu elles n entretiennent pas de relations entre elles. Comme l algorithme proposé par Newman a une complexité trop grande pour être appliqué sur de très grands graphes, plusieurs méthodes ont été proposées pour obtenir des partitions pertinentes avec des algorithmes plus rapides. Pons & Latapy (2006) proposent d appliquer des marches aléatoires sur les graphes pour calculer une mesure de similarité entre les sommets et les regrouper en communautés. Blondel et al. (2008) proposent une variante qui permet d optimiser localement le calcul de modularité pour regrouper progressivement les sommets avec leurs voisins. Cette méthode, appelée «méthode de Louvain» peut être appliquée sur des graphes de plusieurs millions de liens avec une machine de bureau. Le calcul de modularité repose sur le partitionnement du graphe en communautés non recouvrantes, mais en pratique il arrive souvent que l on observe des sommets qui appartiennent à plusieurs communautés en même temps. Palla et al. (2005) et Derényi et al. (2005) proposent une méthode de «percolation de clique» pour capturer ce type de communautés. Ils proposent de choisir une taille de clique k, et de regrouper au sein d une même communauté tous les sommets qui peuvent être découverts en partant d une clique de taille k en recherchant d autres cliques de taille k qui partagent k 1 sommets avec la clique de départ et en poursuivant tant que l on peut trouver de nouvelles cliques en appliquant la même méthode aux cliques ainsi découvertes. Evans & Lambiotte (2009) proposent d appliquer la méthode de Louvain à un graphe de liens, c est-à-dire un graphe qui est obtenu en remplaçant chaque lien par un sommet et en les reliant entre eux lorsqu ils ont un sommet en commun. Plusieurs communautés peuvent être associées à un même sommet dans le graphe d origine si deux liens adjacents ont été attribués à des communautés différentes dans le graphe de liens. Friggeri et al. (2011b) proposent une mesure de «cohésion» des communautés qui est une alternative à la modularité. Elle consiste à compter pour chaque communauté le nombre de triangles qui recouvrent des sommets qui lui appartiennent, et à compter le nombre de triangles «coupés», c est-à-dire à cheval sur plusieurs communautés. Cette mesure a été appliquée avec succès sur des réseaux égocentrés de Facebook pour obtenir des communautés recouvrantes de qualité. Plusieurs études, comme celles de Leskovec & Lang (2009) et de Fortunato (2010), proposent d évaluer les performances des nombreuses méthodes proposées en les appliquant sur un même ensemble de réseaux de tailles et de

40 38 État de l art natures différentes. Une alternative à la détection de communautés consiste à regrouper des sommets qui présentent des motifs de connectivité similaires, ce qui rejoint la problématique d identification de «rôles», au sens défini par Lorrain & White (1971), qui est à l origine de l analyse mathématique des réseaux sociaux. Ainsi, Stoica & Prieur (2009) énumèrent pour chaque sommet d un réseau de téléphonie les sous-graphes induits de taille inférieure ou égale à 5. Ils s appuient sur la position des sommets dans ces sous-graphes pour analyser les interactions entre utilisateurs et mesurer leur importance dans les structures locales des réseaux égocentrés. Stoica et al. (2009) appliquent cette méthode pour analyser le réseau MySpace et utilisent les indicateurs de popularité fournis par le réseau social (comme le nombre de visites ou de commentaires sur chaque page de profil) pour proposer une typologie des artistes présents sur la plateforme. Un troisième axe d analyse consiste à hiérarchiser les sommets présents dans le réseau pour identifier les éléments les plus pertinents par rapport à un sujet ou les «influenceurs» les plus à même de susciter la diffusion d une information. Plusieurs algorithmes ont été proposés pour hiérarchiser les résultats d une requête sur un moteur de recherche, de manière à proposer en priorité des pages qui recevaient des liens provenant d autres pages. L algorithme du HITS, proposé par Kleinberg (1999) calcule pour chaque page un score d «autorité», qui détermine à quel point la page est citée et un score de «hub» qui détermine à quel point elle contient des liens vers des pages de qualité. Brin & Page (1998) ont simplifié cette mesure en appliquant la même méthode, mais en ne calculant qu un seul indicateur, le PageRank. Il correspond à la probabilité de se trouver sur une page à l issue d une marche aléatoire. Les implications de ces deux méthodes dans l élaboration de moteurs de recherche sur le web sont discutées dans Efe et al. (2000). Le PageRank s est imposé comme une des mesures d autorité les plus largement utilisées et a été adapté dans de nombreux contextes. WENG et al. (2010) proposent le Twitter Rank, une variante de l algorithme qui permet de hiérarchiser les utilisateurs sur Twitter en s appuyant sur le réseau des followers, et qui l enrichit en prenant en compte les contenus des messages et leurs chaînes de diffusion. Ils proposent en particulier de classer les contenus par sujets et de calculer des scores différents pour chacun d entre eux. Boldi & Vigna (2013) recensent les différentes mesures de centralité dans un graphe et les appliquent sur des graphes de terrain pour en évaluer la pertinence. Ils constatent que les mesures comme le PageRank ne sont pas toujours les plus efficaces et que des mesures de centralité qui reposent sur un calcul de distance moyenne (en particulier la centralité harmonique) donnent souvent de meilleurs résultats. Les méthodes de hiérarchisation ont souvent pour but de déterminer

41 I/3. Linkfluence ou l approche communautaire 39 des «influenceurs», c est-à-dire des personnes dont les actions ont de fortes chances d influencer celles de leurs contacts. Plusieurs auteurs, comme Kempe et al. (2003) ont proposé des méthodes visant à maximiser la taille des cascades de diffusion en sélectionnant les utilisateurs qui vont diffuser une information en premier. Watts & Dodds (2007) critiquent la notion d influence et montrent que la formation de grandes cascades de diffusion dépend moins de la présence d influenceurs que d une masse critique d acteurs qui se laissent facilement influencer. Ce type de mesure se heurte aussi à la difficulté de mesurer les biais liés à l homophilie des relations : les contacts d un individu ont souvent des caractéristiques communes qui peuvent expliquer qu ils effectuent la même action de manière indépendante. Anagnostopoulos et al. (2008) analysent des séries d actions effectuées par des utilisateurs de Flickr et proposent des tests statistiques qui permettent de distinguer les actions imputables à l influence d un utilisateur de celles qui correspondent plutôt à de l homophilie. L application de leur méthode leur permet de démontrer que l influence sociale ne joue pas de rôle important dans le choix des mots-clés associés aux photographies. Les questions présentées dans cette section trouvent de nombreuses applications, qu il s agisse de concevoir de nouvelles plateformes de services, d optimiser et de mesurer le succès d une campagne de médiatisation sur le web, ou de maîtriser l image en ligne d une entreprise ou d une institution. L adaptation des méthodes proposées par les chercheurs à des contraintes de volume de données ou de temps-réel constituent autant de défis technologiques que des entreprises comme Linkfluence s attachent à relever. 3 Linkfluence ou l approche communautaire Linkfluence est une PME spécialisée dans la collecte et l analyse des prises de parole sur le web. D abord focalisée sur la réalisation de cartographies du web, elle a ensuite développé un institut d études dédié à l analyse du web social (social media intelligence) et développe depuis 2012 un logiciel destiné aux community managers, mais aussi aux responsables produit, marketing et communication travaillant dans des agences ou chez des annonceurs. Les fondateurs ont d abord fait partie d un groupe de recherche nommé RTGI (réseaux, territoires et géographie de l information), qui s est spécialisé dans la réalisation et l analyse de cartographies du web social. Fondé par Franck Ghitalla, qui était alors professeur à l Université Technologique de Compiègne, le groupe s est fait connaître en particulier lors du référendum sur le Traité constitutionnel Européen en 2005 : alors que la victoire du «non» a constitué une surprise pour la plupart des observateurs, RTGI a publié une cartographie des sites ayant pris position lors de la campagne, en montrant que les sites ayant appelé à voter «non» étaient deux fois plus nombreux que ceux qui ont appelé à voter «oui».

42 40 État de l art L entreprise a été créée l année suivante, en 2006, à la faveur de la préparation de la campagne présidentielle de Elle a rapidement proposé de réaliser des études à partir de ses outils, pour répondre à la demande croissante d analyse des prises de parole sur le web. L objectif est par exemple d aider des entreprises, des annonceurs et des institutions à mieux comprendre les opinions qui sont exprimées à leur propos, d analyser les mécanismes de diffusion des informations qui les concernent, ou encore d améliorer le positionnement de leurs marques et de leurs produits sur le web. 3.1 Un institut d études spécialisé dans l analyse du web Pour y parvenir, Linkfluence s appuie sur des technologies de captation et d analyse du web, et sur son institut d études. Ce dernier assure l analyse qualitative des données en proposant à la fois des bilans d image, des études d impact de campagnes de communication, ou des études visant à identifier l écosystème d une marque, ses influenceurs, ou encore les communautés susceptibles d être mobilisées dans le cadre de futures campagnes. Les études produites par Linkfluence enrichissent les prestations proposées par ses logiciels, mais elles permettent aussi de compléter les résultats d études produites par des instituts d études traditionnels. Ceux-ci s appuient essentiellement sur des panels d enquêtés qui sont calibrés pour être représentatifs de la population étudiée. Ils s appuient pour cela sur des critères comme le sexe, l âge, l origine géographique ou les catégories socioprofessionnelles (CSP). Cette segmentation permet d analyser les écarts entre la distribution des réponses des enquêtés en la comparant à celle de l ensemble de la population. On peut par exemple déterminer qu un produit séduit essentiellement les jeunes citadins de moins de 30 ans. Les études réalisées sur le web se démarquent de ce modèle d études traditionnelles, car elles portent sur des prises de parole spontanées et non provoquées. Les avis sont collectés au sein d articles, de commentaires ou de messages de forums, et ne sont donc pas suscités par les questions posées par des enquêteurs. La deuxième différence porte sur la segmentation des corpus analysés : la segmentation traditionnelle en classes d âge, origine géographique et CSP n est pas renseignée lorsque l on traite de messages qui sont le plus souvent publiés de manière anonyme. Par ailleurs, la nature et la forme de ces messages dépendent essentiellement de l orientation thématique des sites sur lesquels ils sont publiés. Linkfluence s appuie donc plutôt sur une segmentation en communautés thématiques de sites, plutôt que sur ces indicateurs démographiques pour réaliser ses études.

43 I/3. Linkfluence ou l approche communautaire Les communautés du web Les travaux de Linkfluence sont inspirés par différents champs de recherche. Il s agit en premier lieu des complex networks, dont l essor au début des années 2000 a fortement inspiré les travaux du groupe de recherche RTGI. Celui-ci s est aussi beaucoup appuyé sur la théorie du support, développée par Ghitalla et al. (2004) : les auteurs étudient la manière dont l essor du web et de la navigation hypertexte ont bouleversé le rapport à la connaissance, et comparent ces évolutions à celles provoquées par l essor de l imprimerie au 16e siècle. Ce nouveau rapport au document écrit introduit en particulier un phénomène de désorientation : alors que les ouvrages imprimés proposent un ordre de lecture et une table des matières, la lecture sur le web s apparente plus à une exploration de lien en lien, chaque lecteur choisissant son ordre et son parcours de lecture, sans disposer de vision d ensemble. La réalisation de cartographies du web a pour ambition de permettre au lecteur de s orienter sur le web, qui est alors considéré comme un espace documentaire. Cette métaphore géographique est largement reprise dans les travaux développés au sein de Linkfluence à travers les notions de continents, de territoires et de communautés qui sont au coeur de sa méthodologie d analyse du web. La détection et l analyse de communautés dans les graphes du web constituent un champ de recherche à part entière dans le domaine des graphes de terrain, comme nous l avons présenté dans la section précédente. Linkfluence s est inspiré de ces travaux pour proposer une méthode de segmentation du web plus empirique. Son hypothèse est que les agrégats observés sur le web sont le fruit d un regroupement par affinité : les sites qui traitent des mêmes sujets se lient entre eux et finissent par constituer des communautés d intérêts. La construction de ces communautés n est cependant pas seulement réalisée à l aide d un algorithme, mais est plutôt le fruit d une méthodologie hybride, qui associe le travail de documentalistes, qui sélectionnent et classifient les sites en fonction de leurs contenus, et de technologies de crawling et d analyse des relations entre les sites sélectionnés, pour proposer aux documentalistes de nouveaux sites à catégoriser. La répétition de ces étapes, en suivant un processus itératif, a permis à Linkfluence de constituer des corpus de sites et de les classer selon une hiérarchie de trois niveaux de communautés. Dans le cas de la France, Linkfluence a défini un découpage en 3 continents, 22 territoires, et 130 communautés. Le tableau I.1 présente la hiérarchie des continents et des territoires qui ont été définis pour le corpus de blogs et de médias français. Ce découpage thématique est essentiellement utilisé dans le cadre du Linkscape, qui est une interface de recherche et d analyse des corpus de blogs et médias.

44 42 État de l art Continents Société Individualité Loisirs Territoires Agora Apparence Animaux Développement durable Cuisine Automobile Marketing et communication Foyer & créations Culture Politique Jeux d argent Ressources humaines Jeux video Santé Moto Sciences Photo Technologues Urbanisme Sports Sports extrêmes Voyage Table I.1 Liste des deux premiers niveaux de hiérarchie des communautés définies pour le corpus de blogs et médias français 3.3 Principales briques technologiques Linkfluence a développé plusieurs logiciels pour collecter des données issues du web, les analyser, réaliser des cartographies et assister le travail des chargés d études. Nous présentons dans cette section les deux principaux logiciels, le Linkscape et Radarly, qui ont tous deux été conçus pour être commercialisés, ainsi que l architecture de la chaîne de captation et de traitement des données qui les alimentent. Le Linkscape Le Linkscape est un moteur de recherche sur les blogs et médias qui repose sur la captation en continu des articles publiés par les médias nationaux et les blogs les plus actifs. Cet outil permet d appliquer trois types de filtres pour classer et analyser les données : le premier s appuie sur les catégories attribuées à chaque site par Linkfluence, le deuxième sur la temporalité, en permettant de sélectionner la période sur laquelle porte une requête, et le troisième sur la sémantique, en appliquant des recherches textuelles sur les contenus publiés. L objectif de cet outil est de constituer un panel, c est-à-dire un corpus de sites représentatif des publications des blogs et des médias dans un pays. A ce titre, la classification des sites par communautés peut être considérée comme un équivalent des catégories socio-professionnelles (CSP), qui sont largement utilisées dans le cadre des études traditionnelles. Pour la France, le Linkscape dispose d un historique de plus de 3 ans de données, pour un corpus de sites. D autres corpus ont été réalisés pour couvrir l Allemagne, les États-Unis, le Royaume-Uni, l Italie et l Autriche. Des corpus espagnols, russes ou encore polonais sont en cours de construction.

45 I/3. Linkfluence ou l approche communautaire 43 Figure I.1 Interface du Linkscape Nous discutons des méthodes utilisées pour maintenir et enrichir ces panels dans la section 1 du chapitre III. Par souci de simplicité, nous limiterons nos exemples au corpus français lorsque nous mentionnerons le Linkscape dans la suite de ce mémoire. Conçu dès 2007 pour être commercialisé, l outil s est révélé trop complexe et est essentiellement utilisé par l institut d études et par quelques partenaires. Les enseignements tirés de son développement ont permis de développer Radarly, qui est aujourd hui le produit logiciel commercialisé par Linkfluence. Radarly Radarly est un outil de veille sur les médias sociaux. Il permet d organiser un «plan de requête», c est-à-dire un ensemble de requêtes qui correspondent à des sujets ou des thématiques dont on veut suivre les retombées sur le web social. L interface permet ensuite de consulter les messages captés en temps réel, de les organiser en thématiques, de les trier ou de les filtrer en fonction des métadonnées qui leur sont associées.

46 44 État de l art Figure I.2 Interface de visualisation des données de Radarly Les utilisateurs disposent de tableaux de bord qui leur permettent d analyser leurs retombées, en consultant des indicateurs, en les comparant à ceux obtenus sur une période de référence (la semaine ou le mois précédent par exemple), et en visualisant les résultats à l aide de modules graphiques comme ceux présentés sur la figure I.2. Une page liste les «influenceurs», c est-à-dire les comptes sur Twitter et Facebook qui sont les plus actifs par rapport aux retombées sélectionnées. Les utilisateurs peuvent également comparer les volumes des messages publiés à propos de leur marque avec ceux qui concernent leurs concurrents, grâce à une page de veille concurrentielle. Enfin, ils peuvent répondre aux messages directement via l interface, en connectant leurs comptes de réseaux sociaux (comme Facebook ou Twitter). Contrairement au Linkscape, Radarly est conçu pour être exhaustif : il repose sur un corpus de plus d un million de flux RSS pour les données issues de blogs, de forums, et de médias en ligne, et il est alimenté par les API des plateformes de contenus comme Twitter, Facebook ou encore Google+. Comme cet outil a une vocation internationale, les méthodes utilisées pour filtrer et enrichir les données collectées doivent être appliquables de manière

47 I/3. Linkfluence ou l approche communautaire 45 générique, indépendamment de la langue ou du pays ciblés. Pour permettre aux marques d être aussi réactives que possible pour répondre aux questions et aux sollicitations de leurs clients, il faut que les messages soient traités et indexés en temps réel, en minimisant la latence entre la publication sur le web et la mise à disposition de chaque retombée dans l interface. La chaîne de traitement des données C est pour répondre à ces défis que Linkfluence a développé une chaîne de captation et d enrichissement des données en temps réel. Les principaux éléments de son architecture sont présentés dans la figure I.3. Captation Captation web Captation web web Dispatch Dispatch Dispatch Web Clients API Clients API Clients API Enrichissement Index Archive Index Clients MapReduce HBase Front HDFS Software maison distribué Workers temps-réel (Storm) Traitement batch (Hadoop) Stockage metas Stockage et index docs (ElasticSearch) API (Play2) Figure I.3 Architecture simplifiée de la chaîne de captation et d enrichissement des données de Linkfluence Une première étape consiste à capter des données issues du web (pour les médias en ligne, les forums et les blogs) et de différents réseaux sociaux (à partir de leurs API). Ces données sont ensuites traitées dans une chaîne d enrichissement, pour y ajouter des métadonnées telles que la géolocalisation, la langue, la liste des entités nommées (comme les personnes ou les lieux cités dans le texte du message) ou la tonalité. Chaque métadonnée peut être renseignée directement si elle est fournie par une source de données, ou détectée au cours du traitement dans la chaîne. Ces traitements sont exécutés au fil de l eau et les données sont archivées, puis mises à disposition des clients dès leur sortie de la chaîne. Un index d archive stocke l ensemble des retombées captées, ce qui permet de disposer d une base de départ pour déployer de nouveaux projets dans

48 46 État de l art Radarly. Les retombées sont aussi confrontées aux requêtes des utilisateurs de Radarly, et celles qui correspondent sont enregistrées dans les instances des clients et mises à disposition dans leur interface. Une couche de traitement en batch processing (qui s appuie sur les technologies issues de l écosystème Hadoop) permet de calculer périodiquement des statistiques agrégées ou de nouveaux modèles de classification. Cette chaîne de traitement est conçue pour résoudre les trois difficultés essentielles que sont l hétérogénéité, la vitesse et le passage à l échelle. L hétérogénéité des données est liée à la grande variété de sources et de formats de données que la chaîne doit traiter. Certains documents peuvent aussi contenir des informations erronées ou incomplètes, et la chaîne doit être suffisamment robuste pour tolérer ces erreurs et harmoniser les documents. Ce problème est résolu en isolant les logiciels de captation en amont de la chaîne de traitement : chaque type de source peut ainsi être traité de manière spécifique et les contenus extraits sont harmonisés avant d être traités dans la chaîne commune. La vitesse correspond à la contrainte de traitement en temps réel. L objectif est de minimiser à la fois le délai entre la publication d une retombée et sa captation, et le temps de traitement de la donnée dans la chaîne. Pour la captation, on utilise autant que possible des technologies de push, en utilisant des API en streaming ou le protocole pupsubhubbub, qui permettent de s abonner à des sites et d être informé lorsqu ils publient un nouvel article. Si ce n est pas possible, il faut vérifier régulièrement si un nouvel article a été publié, et ordonnancer les appels sur les API ou les flux RSS pour les répartir dans le temps tout en s assurant de visiter en priorité les sites qui publient le plus souvent. Les méthodes employées dans la chaîne de traitement doivent être non bloquantes, ce qui limite la complexité des traitements que l on peut appliquer, en privilégiant des algorithmes qui fonctionnent en streaming et nécessitent un minimum de ressources. Les calculs les plus coûteux sont effectués périodiquement, dans la couche de batch-processing, ce qui permet à la chaîne de fonctionner de manière indépendante pendant qu ils sont effectués. Le passage à l échelle (souvent appelé scalabilité) permet à l architecture logicielle de s adapter au volume de données à traiter. Linkfluence a choisi de résoudre ce problème en adoptant une architecture distribuée pour sa chaîne de traitement en temps réel (avec le logiciel Storm), ses index (Elasticsearch) et ses bases de données (HBase). L augmentation de la capacité de traitement et de stockage est donc obtenue en ajoutant des machines entre lesquelles la charge et les données sont automatiquement réparties par les différents logiciels. Ce type d architecture entraîne l usage de nombreuses machines lorsque l on traite de grands volumes de données, et cela implique d automatiser l installation et le déploiement de nouvelles instances, pour s adapter à un changement rapide du volume de données à traiter, en cas de

49 I/3. Linkfluence ou l approche communautaire 47 pic d activité par exemple, ou pour simplifier les processus de mises à jour ou de correction de bugs des différents logiciels. Les solutions proposées pour répondre à ces trois difficultés ne sont jamais définitives, en raison de l évolution rapide des sources de données, des fonctions assurées par la chaîne et du volume toujours croissant de documents à traiter. Ces contraintes doivent donc être prises en compte lors de chaque étape de développement. 3.4 Problématiques de recherche Le marché sur lequel Linkfluence se positionne compte de nombreux acteurs et lui impose d enrichir constamment ses offres et ses produits. Ces innovations reposent sur l ajout de nouvelles sources de données, sur l enrichissement des métadonnées associées aux documents et sur l amélioration des méthodes utilisées pour classer et hiérarchiser l information. Ces dernières s appuient dans une large mesure sur l état de l art de la recherche académique. Elles concernent essentiellement la détection et l analyse des communautés, les mesures de diffusion de l information et l établissement d indicateurs d influence. La participation à plusieurs projets de recherche a permis à l entreprise de multiplier les collaborations avec des chercheurs issus de disciplines variées, allant de la sociologie aux mathématiques appliquées, en passant par le design et la visualisation de données. Les projets sont à la fois l occasion de profiter d expertises extérieures, de tester la validité des données produites par Linkfluence et de stimuler la recherche et développement en interne. Le projet Webfluence, qui était consacré à l analyse et la modélisation des dynamiques des réseaux de blogs, illustre bien la richesse de ce type de collaboration. Il a duré de janvier 2009 à décembre 2010, et réunissait, en plus de Linkfluence, des sociologues du laboratoire SENSE d Orange labs, l équipe complex networks du Laboratoire d Informatique de Paris 6 (LIP6), et des membres du Centre de Recherche en Épistémologie Appliquée (CREA). Il a donné lieu à plusieurs publications qui portent sur des sujets directement liés à la recherche réalisée au sein de Linkfluence. Cardon et al. (2011a) comparent la structure de la blogosphère politique française entre 2007 et 2009 et analysent l organisation de ses communautés. Il s appuient pour cela sur des méthodes d analyse des réseaux sociaux, de l interprétation sociologique et l expertise des chargés d études de Linkfluence sur les blogs eux-mêmes. Menezes et al. (2011), en associant des méthodes d analyse sémantique des contenus des blogs et d analyse des dynamiques de citations de liens, proposent un modèle permettant d identifier les «précurseurs», c est-à-dire des blogs qui abordent les sujets les plus populaires avant les autres. La comparaison de ce score avec le degré des blogs dans le graphe leur permet de proposer une classification en quatre groupes, dont la pertinence a été validée

50 48 État de l art par des chargés d étude de Linkfluence qui n avaient pas de connaissance préalable de la manière dont ces groupes avaient été créés. Cardon et al. (2011b) étudient les mécanismes de construction de l autorité dans différentes communautés de blogs. Ils analysent pour cela l évolution du nombre de liens entrant et sortant, en distinguant les liens en provenance ou à destination de la même communauté, et ceux qui sont associés à une communauté extérieure. Cette classification leur permet d observer que les trajectoires des blogs qui rencontrent de plus en plus de succès diffèrent en fonction des communautés. Du point de vue technique, le projet Webfluence à conduit Linkfluence à mettre au point une méthode qui lui permet d effectuer le détourage des articles à partir des pages HTML captées, en les isolant des sections de navigation interne et de commentaires. D autres projets de recherche ont été entrepris sur des thématiques variées : Dynamicité, qui est réalisé avec Xerox et l Université Technologique de Compiègne, a pour objectif d effectuer une analyse comparée des traces numériques des villes de Paris et Shanghai, et permet à Linkfluence d expérimenter à la fois l exploitation de données géographiques et les spécificités du web chinois Le projet Datascale a pour but d expérimenter l exploitation de systèmes HPC (High Performance Computing) dans un contexte de Big Data. Le cas d usage sur lequel intervient Linkfluence en collaboration avec le CEA LIST consiste à effectuer de l analyse multimédia, avec pour objectif à terme d intégrer des traitements d analyse d images dans la chaîne de captation. Le projet CODDDE, en partenariat avec le LIP6 et l ENS Lyon, est consacré à l amélioration des méthodes de détection de communautés dynamiques, d analyse des phénomènes de diffusion de l information et à la détection d évènements. Enfin, le projet Algopol réunit des sociologues et des informaticiens de plusieurs centres de recherche : le LIAFA, le Centre d Analyse et de Mathématiques Sociales (CAMS), et le laboratoire des usages d Orange Labs (SENSE). Le projet a pour objectif d analyser les emplois des algorithmes utilisés pour classer et hiérarchiser les contenus numériques et d étudier les transformations qu ils entraînent sur nos usages en ligne. Nous avons élaboré dans le cadre de ce projet un dispositif d enquête permettant de collecter un corpus de réseaux egocentrés sur Facebook. Ce travail est présenté dans la section 2 du chapitre VI.

51 Chapitre II Construction de liens dans un grand réseau social : les commentaires sur Flickr Les réseaux sociaux sont par définition des réseaux vivants : les individus qui les composent entretiennent des relations qui varient avec le temps. Certaines de ces relations sont éphémères, d autres sont récurrentes, de nouvelles relations peuvent appparaître et d autres être délaissées. L étude de la dynamique des réseaux, c est-à-dire de la manière dont les réseaux évoluent avec le temps, permet à la fois de comprendre comment le réseau se construit, mais aussi de ne pas effectuer d anachronisme en prenant en compte dans un même calcul des relations qui renvoient à des périodes de temps trop éloignées et ne sont donc pas concurrentes. Nous nous sommes en particulier intéressés à la manière dont les individus agrègent leur voisinage dans le réseau, en ajoutant les contacts les uns après les autres. Notre objectif est de déterminer si les «amis d amis», c est-àdire les individus situés à une distance de 2 dans le réseau social, sont plus souvent choisis comme nouveaux contacts que des individus choisis au hasard sur le réseau social. Cette notion de transitivité des relations (on entre d abord en contact avec un sommet A, puis avec les contacts de A) a été étudiée dès les premiers travaux de social network analysis (Rapoport, 1953) et explique probablement en grande partie les fortes densités locales qui caractérisent les graphes de terrain. Pour répondre à ces questions, nous avons choisi d adopter deux échelles d analyse : celle du graphe dans son ensemble, en étudiant l évolution de ses principales caractéristiques, et celle des sommets du graphe, en s intéressant en particulier à la formation de leur voisinage. Nous avons choisi de travailler sur le cas de Flickr.com, qui est un des sites majeurs de partage de photos et de vidéos : lancé en 2004, il a connu rapidement un grand succès qui lui a 49

52 50 Analyse des commentaires sur Flickr valu d être racheté par Yahoo! en mars Ce travail s inscrit dans la continuité d un étude plus générale sur l activité des utilisateurs de Flickr qui s appuie sur l extraction de l ensemble de l activité publique du site, depuis sa création jusqu en 2006 (Beuscart et al., 2009). Les auteurs insistent sur la grande diversité des pratiques, en montrant que le réseau fait coexister différentes stratégies de filtrage et de classification des photographies, en particulier à travers la création de groupes thématiques. Nous nous appuyons aussi sur un article de Kumar et al. (2006), dans lequel les auteurs étudient l évolution de la structure des réseaux Flickr et Yahoo! 360. Ils proposent une classification des membres de Flickr en trois catégories : ceux qui appartiennent à la composante principale et qui représentent près de la moitié du réseau, ceux qui sont isolés et ceux qui appartiennent à de petites communautés souvent structurées en étoile. Enfin, ils montrent que les réseaux étudiés traversent trois grandes étapes dans leur évolution, qui se caractérisent par des comportements différents en terme de densité, de diamètre et de taille relative de la composante connexe principale, avant d aboutir à une stabilisation de ces trois mesures. Les méthodes que nous employons pour mesurer la robustesse des mesures que nous effectuons sur le graphe des commentaires sont inspirées de celles proposées par Latapy & Magnien (2006), qui répètent les mêmes mesures sur différentes tailles d échantillons d un même graphe pour vérifier si les résultats sont stables ou s ils varient en fonction de la taille de l échantillon. Nous proposons une approche similaire, en faisant varier la durée de vie des liens, plutôt que la taille de l échantillon. Nous nous appuyons pour cela sur un corpus de données exhaustif, ce qui nous permet d expérimenter différentes méthodes de construction de graphe et de mesurer leur impact sur la structure générale du graphe observé. Nous nous intéressons ensuite à la constitution du voisinage des sommets, à partir de mesures de transitivité, et montrons que l essentiel des relations observées ont lieu entre des individus qui ont déjà interagi ou sont déjà très proches dans le réseau. 1 Données et méthodes 1.1 Construction du graphe de commentaires Nous avons travaillé à partir d une extraction systématique réalisée en utilisant l API publique de Flickr en août 2006 (Beuscart et al., 2009). Nous disposons donc d un jeu de données «exhaustif» qui représente photographies publiques et membres. Notre travail porte uniquement sur les commentaires de cette base de données. Nous disposons d une base de commentaires qui ont été

53 II/1. Données et méthodes 51 échangés entre mars 2004 et juillet 2006 par utilisateurs. Nous appelons émetteur l utilisateur qui écrit un commentaire, et destinataire le propriétaire de la photographie sur laquelle le commentaire est déposé. Les messages ainsi enregistrés constituent un fil de discussion qui s affiche en dessous de la photographie. L émetteur et le destinataire peuvent donc être une même personne, si l auteur d une photographie choisit de répondre aux commentaires déposés sur celle-ci. Nous avons simplifié la structure de graphe biparti reliant des utilisateurs à des photographies pour nous concentrer sur les interactions entre les individus : nous n avons conservé que l identifiant de l émetteur, l identifiant du destinataire et le timestamp correspondant au moment où le commentaire a été écrit, à la seconde près. Nous avons par ailleurs retiré les commentaires dans lesquels l émetteur et le destinataire sont la même personne. Chaque sommet correspond donc soit à l auteur d un commentaire, soit au propriétaire d une photo qui a été commentée. u Photo 1 Photo 2 u u1 u2 u3 u4 u1 u2 u3 u4 (a) (b) Figure II.1 Construction du graphe de commentaires La structure de gauche correspond aux données collectées sur Flickr (a), la structure de droite correspond au réseau que nous avons construit (b). La figure II.1 montre que cette simplification nous fait perdre une partie de l information : on ne sait pas si plusieurs commentaires adressés à la même personne ont été déposés sur la même photographie. Il peut arriver que les commentaires prennent la forme d un fil de discussion dans lequel les commentateurs se répondent entre eux. On pourrait alors considérer qu il y a aussi interaction entre deux utilisateurs s ils commentent la même photographie, mais ce serait abusif car en pratique une grande partie des commentaires restent très lacunaires et sont destinés en premier lieu au propriétaire de la photographie (e.g. : «Nice pic!»). Notre approche est donc réductrice, mais elle nous assure que l émetteur du commentaire a voulu interagir avec le propriétaire de la photographie, sans avoir besoin de faire de suppositions sur l existence d autres destinataires.

54 52 Analyse des commentaires sur Flickr 1.2 Formalisation Les informations issues de la base de commentaires se présentent sous la forme d une liste de liens dirigés classée par ordre chronologique de la forme (e, d, t), où e est l identifiant de l émetteur du commentaire, d celui du destinataire, et t le timestamp du commentaire. Pour prendre en compte la dimension dynamique de nos données, nous définissons un intervalle de temps discret T et pour tout t T le graphe non orienté G t = (V, E t ), où V est l ensemble des sommets et E t l ensemble des relations entre deux sommets (u, v) qui «existent» à l instant t. On peut adopter différentes stratégies pour déterminer si une relation existe ou non. Nous considérerons ici que les commentaires sont cumulatifs : un lien entre u et v est considéré comme existant à l instant t si les deux sommets ont déjà échangé au moins un commentaire auparavant. Il est aussi possible de limiter cette condition en considérant que les relations disparaissent si aucun commentaire n est réémis entre deux sommets au-delà d un intervalle de temps donné. Le voisinage à distance 2, noté N 2 t (u) dans G t (resp. N 2 (u) dans G) d un sommet u, désigne l ensemble des sommets qui sont des voisins de voisins de u sans être compris dans N t (u) (resp. N(u)). A B d(a, C) t 1 = 2 C A B C D d(a, D) t 1 3 Figure II.2 Définition d un voisinage proche (en haut) et lointain (en bas) Le lien en pointillés correspond à l ajout d un nouveau lien au temps t, les liens en traits pleins correspondent à l état du graphe au temps t 1. Si le sommet v devient un voisin de u à l instant t, on dira que c est un voisin proche si leur distance était de 2 à l instant t 1, et un voisin lointain sinon. Nous notons N t (u) l ensemble des voisins proches de u dans G t, que nous appelons voisinage proche de u. On notera P t (u) la proportion de voisins proches de u dans G t (resp. P (u) dans G) : P t (u) = N t(u) N t(u).

55 II/1. Données et méthodes Mesures Rappelons qu une composante connexe est un ensemble de sommets qui sont connectés deux à deux par au moins un chemin. Leur identification est surtout intéressante pour identifier la composante connexe principale : les graphes de terrain se caractérisent en effet par l existence d une très grande composante connexe qui contient une grande proportion des sommets, puis d un grand nombre de composantes connexes contenant très peu de sommets (Albert & Barabási, 2002). En pratique, la composition des composantes connexes peut se calculer à la volée au moment du chargement du graphe au moyen d un algorithme union-find. On définit habituellement la périphérie d un graphe de manière constructive en sélectionnant itérativement tous les sommets qui ne possèdent qu un voisin et en mettant à jour les degrés de ceux-ci, ce qui revient à désigner le plus grand ensemble d arbres induits dans le graphe. Cette notion est très utilisée en analyse de réseaux sociaux, en particulier dans le cas de la périphérie de la composante connexe principale, car elle identifie des sommets qui ont une position «marginale», mais qui restent malgré tout connectés à une grande partie du graphe (Seidman, 1983; Csermely et al., 2013). La définition constructive de la périphérie revient à effectuer un parcours en largeur en partant des sommets de degré 1 et en ne visitant que les sommets qui n ont qu un seul voisin de degré 1 non encore visité. 1.4 Méthodes Ces mesures peuvent être effectuées directement sur le graphe G, ce qui revient à mesurer l état de G t à la fin de la période T si l on considère le cas où les liens sont cumulatifs. Les mesures peuvent porter sur l ensemble du graphe : taille et nombre de composantes connexes, taille de la périphérie ou coefficient de clustering. Elles peuvent aussi s appliquer à chaque sommet u, par exemple la taille du voisinage. Pour mesurer l évolution de ces mesures au fil du temps, il faut effectuer les calculs au fur et à mesure de la lecture des commentaires. En termes d implémentation, on charge alors l ensemble des liens de G en mémoire sans information de temps, puis on parcourt la liste des commentaires en mémorisant pour chaque lien la date de sa dernière occurrence, ce qui permet de déterminer si un lien est présent dans le graphe G t au fil de la lecture des commentaires. Par exemple, dans le cas cumulatif, on teste la présence d un lien dans G t en vérifiant si sa dernière occurrence est inférieure ou égale à l instant t. Dans le cas où l on souhaite limiter la durée de vie d un lien, on teste l écart entre la dernière occurence du lien et t. On effectue les mesures sur G t à intervalles réguliers : si les mesures se calculent en temps linéaire avec une faible constante et qu on choisit des intervalles de quelques jours, on peut simplement appliquer les algorithmes

56 54 Analyse des commentaires sur Flickr des graphes statiques lors de chaque intervalle. En revanche, on ne peut pas calculer l évolution du coefficient de clustering avec cette méthode, car il serait trop coûteux d effectuer la mesure à de nombreuses reprises. On utilise alors un algorithme dynamique qui fait le décompte des nouveaux triangles à chaque fois qu une nouvelle relation apparaît dans le graphe. Pour implémenter efficacement ces mesures dynamiques, il faut réduire au minimum les traitements de réinitialisation qui peuvent être nécessaires entre deux calculs. En fonction du type de mesure, on peut effectuer ces réinitialisations à la volée, lors de chaque étape de calcul ou bien on peut utiliser une pile pour ne réinitialiser que les valeurs qui ont été modifiées à l étape précédente. 2 Évolution de l activité Une première approche consiste à évaluer l évolution de l activité des commentaires : pour chaque journée, nous avons mesuré le nombre de messages émis, le nombre d utilisateurs différents qui ont émis un message et le nombre de destinataires différents auxquels les messages ont été adressés. Un utilisateur est considéré comme «actif» s il a émis ou reçu au moins un message au cours d une journée. L évolution du nombre d utilisateurs actifs est représentée sur la figure II Utilisateurs actifs Nombre d émetteurs Nombre de destinataires Effectifs Proportions Temps Commentaires par émetteur Destinataires par émetteur Figure II.3 Évolution de l activité sur l ensemble de la période (courbe lissée) L activité est faible jusqu en janvier 2005, ce qui correspond à une période de mise en place pendant laquelle le nombre moyen de messages par émetteur double, en passant de 2 à 4. L activité croît ensuite de façon régulière tout au

57 II/2. Évolution de l activité 55 long de la période, à l exception d un décrochement au tournant de l année Le nombre de commentaires émis par rapport au nombre d émetteurs augmente peu après la phase de mise en place, il se stabilise rapidement autour de 5 commentaires par émetteur et reste constant ensuite. Le rapport entre le nombre de destinataires et le nombre d émetteurs est lui aussi constant : il y a en moyenne 1.1 destinataires par émetteur. L écart de cette moyenne avec celle des commentaires émis suggère que les utilisateurs ont tendance à concentrer leurs commentaires sur quelques utilisateurs. Cela peut correspondre au dépôt de commentaires sur plusieurs photographies d un même utilisateur ou bien à l échange de plusieurs commentaires sur une même photographie, dans le cadre d un fil de discussion. La constance de ces indicateurs montre que l augmentation de l activité des commentaires est liée uniquement à l augmentation du volume des utilisateurs. Si l on ne tient pas compte de la période de mise en place, ceux-ci ne sont pas plus prolifiques à la fin de la période d observation que lors du lancement du service : il y a un peu plus de émetteurs par jour au début du mois de janvier 2005 et ils sont environ 20 fois plus nombreux à la fin du mois de juillet 2006, avec près de émetteurs par jour. Sans surprise, l activité des utilisateurs varie en suivant des cycles d une semaine. On observe un creux d activité le dimanche, puis une reprise progressive de l activité le lundi et un pic d activité le mardi qui est suivi par une baisse progressive jusqu à la fin de la semaine (cf. figure II.4). Effectifs Proportions Utilisateurs actifs Nombre d émetteurs Nombre de destinataires Temps Commentaires par émetteur Destinataires par émetteur Figure II.4 Évolution de l activité pour les 3 derniers mois d observation Ce premier survol permet d observer deux phénomènes : l élargissement du nombre de commentaires et d utilisateurs, qui illustrent la popularité du service, et la constance du comportement moyen des utilisateurs actifs. Cette stabilité nous apprend peu de choses sur les comportements des utilisateurs,

58 56 Analyse des commentaires sur Flickr car la moyenne masque une forte hétérogénéité du nombre de commentaires. Pour comprendre comment cette activité se traduit en termes de relations, nous avons mesuré la structure générale du graphe et son évolution. 3 Robustesse de la structure générale du graphe Les mesures présentées dans la section 2 ne concernent que des données d activité agrégées sur l ensemble du corpus de commentaires. Pour déterminer si cette stabilité s applique aussi à la structure du graphe, nous avons appliqué deux mesures : la taille de la composante connexe principale, qui avait déjà été utilisée par Kumar et al. (2006) sur le réseau Flickr, et celle de la périphérie. Nous avons étudié l évolution de ces mesures au cours de la période d observation, en appliquant différents scénarios de construction du graphe. 3.1 Évolution de la composante connexe principale L évolution de la taille de la composante connexe principale donne une bonne idée de l accroissement de la taille du graphe car elle regroupe une grande partie de ses sommets. Nous avons d abord construit notre graphe Taille Temps 1 jour 7 jours 15 jours 1 mois 3 mois 6 mois Sans disparition Figure II.5 Évolution de la taille de la composante connexe principale en fonction de la méthode de construction du graphe en adoptant le modèle cumulatif : une relation existe entre deux utilisateurs à partir du moment où ils ont échangé au moins un commentaire. On peut cependant considérer que dans un contexte dynamique, les relations perdent de leur importance si elles ne sont pas réactivées régulièrement. Le simple fait d émettre un commentaire est un engagement peu coûteux pour un utilisateur, la relation ainsi créée doit être renouvelée régulièrement pour être significative. On peut alors modifier le modèle de construction de G t en fixant un délai d activité au-delà duquel une relation est considérée comme abandonnée. Si

59 II/3. Robustesse de la structure générale du graphe 57 à un moment donné la date de dernière activation d une relation dépasse le délai fixé, on la retire du graphe. Par extension, on considère qu un sommet u est actif dans G t s il est relié à au moins un autre sommet par une relation active au moment de la mesure, i.e. si deg t (u) 1. La figure II.5 a été obtenue en utilisant la méthode de mesure dynamique de G t telle que nous l avons décrite dans la section 1.4. La courbe la plus élevée correspond à l accroissement de la composante connexe principale dans le cas où les liens s ajoutent au fil des commentaires, les courbes inférieures ont été obtenues en choisissant différents délais d activité, de six mois à une journée. La réduction du délai entraîne une réduction de la taille de la composante connexe principale, mais celle-ci augmente quel que soit le délai choisi. Ce n est pas surprenant puisqu on sait déjà que l activité quotidienne augmente tout au long de la période. 3.2 Réduction du graphe aux liens réciproques Nous avons choisi de travailler sur un graphe non orienté par souci de simplification combinatoire. Les commentaires sont cependant orientés : un utilisateur peut émettre beaucoup de commentaires sans pour autant en recevoir, ou même sans avoir mis de photographie en ligne. De la même façon un utilisateur peut recevoir beaucoup de commentaires sans en émettre beaucoup en retour. L étude de la distribution croisée des degrés entrant et sortant de chaque sommet montre qu il existe en effet des profils dissymétriques, mais la forte corrélation entre le degré entrant et le degré sortant, en particulier pour les sommets de fort degré nous conforte dans l idée que l on peut avoir une vision précise de la structure générale du graphe en considérant la version non orientée. En revanche, cette simplification pourrait poser problème pour l étude des dynamiques locales en raison de l existence de profils dissymétriques. Pour s affranchir de ce problème, nous avons choisi d ajouter une contrainte de réciprocité dans les relations : on peut décider de ne conserver une relation entre deux sommets que s il existe au moins un lien dans chaque direction pour cette relation, autrement dit si chacun des sommets a été au moins une fois émetteur et récepteur. On élimine ainsi les relations unilatérales qui peuvent être considérées comme de moindre importance si l on s intéresse aux interactions entre utilisateurs. Le graphe des commentaires réciproques contient sommets pour commentaires. Cela signifie que les relations entretenues par moins d un tiers (28.4 %) des utilisateurs représentent près de deux tiers (65.2 %) de l ensemble des commentaires. Cette dissymétrie nous montre qu il existe au sein du graphe une minorité d utilisateurs dont l activité interne constitue une part importante de l ensemble des commentaires. Si l on compare l évolution du nombre de sommets et de relations dans le graphe complet et dans le graphe des commentaires réciproques, sans

60 58 Analyse des commentaires sur Flickr suppression de lien (figure II.6), on constate que ces proportions sont stables à partir du mois de décembre 2004, avec une légère baisse de la proportion de sommets qui entretiennent des relations réciproques Sommets réciproques Relations réciproques Proportion Temps Figure II.6 Évolution de la proportion de sommets et de relations entre le graphe de l ensemble des liens et le graphe des liens réciproques 3.3 Comparaison sur différentes périodes de temps Pour comparer les résultats obtenus avec les différentes méthodes de construction du graphe, nous rapportons les valeurs brutes obtenues pour la taille de la composante connexe principale au nombre de sommets actifs dans G t. La figure II.7 représente ainsi l évolution de la taille relative de la composante connexe principale : les courbes du haut concernent les mesures effectuées sur l ensemble des commentaires et celles du bas correspondent aux commentaires réciproques. À titre de comparaison nous avons mesuré dans la figure II.8 l évolution de la taille relative de la périphérie de G t. On constate que les proportions sont très comparables, quel que soit le délai de suppression ou le graphe qu on considère. Dans tous les cas, on retrouve l évolution décrite dans Kumar et al. (2006) : une première période de mise en place de la structure du graphe, puis une stabilisation des proportions, toujours à partir de décembre La taille relative de la composante principale est alors en légère augmentation et reste proche de 85 % des sommets actifs, la taille relative de la périphérie décroît légèrement en restant supérieure à 40 %. Même en adoptant des délais de suppression très courts, de l ordre de la semaine ou de la journée, ces proportions restent relativement stables, une fois passée la première période de constitution de la structure du graphe. En effectuant la même expérience pour mesurer l évolution du diamètre du graphe, nous constatons que celui-ci évolue lui aussi de manière très similaire quel que soit le mode de construction du graphe : le graphe de l ensemble des liens a un diamètre qui augmente de manière régulière pour atteindre la valeur finale de 19 et celui des liens réciproques a un diamètre

61 II/3. Robustesse de la structure générale du graphe Proportion jour 7 jours 15 jours (a) Temps 1 mois 3 mois 6 mois Sans disparition Proportion jour 7 jours 15 jours (b) Temps 1 mois 3 mois 6 mois Sans disparition Figure II.7 Évolution de la taille relative de la composante connexe principale pour l ensemble des liens (a) et pour les liens réciproques (b)

62 60 Analyse des commentaires sur Flickr Proportion jour 7 jours 15 jours (a) Temps 1 mois 3 mois 6 mois Sans disparition Proportion jour 7 jours 15 jours (b) Temps 1 mois 3 mois 6 mois Sans disparition Figure II.8 Évolution de la taille relative de la périphérie pour l ensemble des liens (a) et pour les liens réciproques (b)

63 II/4. Transitivité dans les commentaires 61 de 21. La distance moyenne est également légèrement plus grande dans le graphe des liens réciproques que pour le graphe de l ensemble des liens (4.8 contre 4.5). 3.4 La robustesse du graphe Ces résultats confortent nos premières observations sur l activité. Ils montrent aussi que la structure relationnelle de notre graphe est remarquablement stable au fil du temps et qu elle résiste bien aux contraintes de délai et de réciprocité des relations que l on peut introduire dans la construction du graphe. Comme les commentaires réciproques représentent près des deux tiers de l ensemble des commentaires, nous pouvons imaginer que l intensité des relations entre ces sommets joue un rôle prépondérant dans l élaboration de la structure du graphe : les commentaires non réciproques viennent grossir la taille du graphe mais ne modifient pas sensiblement sa structure. La robustesse des caractéristiques générales du graphe permet de travailler sur des données plus «réalistes», qui tiennent compte de la durée de vie des relations sans craindre pour autant de modifier radicalement la structure des relations. Les graphes ainsi formés contiennent moins de sommets et de relations, ce qui permet d accélérer sensiblement le temps de traitement des algorithmes de mesure. La suppression des relations ajoute cependant une difficulté dans le cas de la mesure des triangles, car il faut alors savoir à quel moment une relation disparaît pour décompter tous les triangles qui la contenaient. Cela signifie aussi que le degré des sommets peut croître et décroître, ce qui complexifie l analyse de son évolution. Nous avons donc choisi pour des raisons de simplicité de limiter notre analyse au modèle de cumul des relations sans suppressions de liens pour le reste de ce chapitre. 4 Transitivité dans les commentaires L étude des densités locales nous permet de mieux comprendre les mécanismes de création de liens. Notre objectif est de déterminer dans quelle mesure les commentaires sont échangés avec des «amis d amis», c est-àdire avec des utilisateurs qui se trouvent à distance 2 dans le graphe des commentaires. Nous introduisons pour cela la notion de «voisins proches», qui nous permet de mesurer l importance de la transitivité dans ce réseau dynamique, et nous montrons que l évolution de la densité locale suit les mêmes étapes que l évolution de la densité globale observée par Kumar et al. (2006) dans leur article.

64 62 Analyse des commentaires sur Flickr 4.1 Les «voisins proches» Le rôle important des relations réciproques suggère que les utilisateurs ont tendance à échanger plus de messages avec les personnes avec qui ils sont déjà en contact. Pour évaluer l importance de ces phénomènes locaux dans la structure du graphe, on mesure pour l ensemble des commentaires la proportion de liens répétés et de nouvelles relations. Le tableau II.1 est obtenu en mesurant pour chaque commentaire émis à l instant t la distance qui séparait l émetteur du destinataire à l instant t 1. Si la distance est égale à 1, cela signifie que le lien est répété entre deux sommets qui étaient déjà voisins, sinon cela correspond à la création d une nouvelle relation. Nous distinguons les nouvelles relations avec un voisin proche (distance = 2) des nouvelles relations avec un voisin lointain (distance 3). Nous regroupons les distances supérieures ou égales à 3 en raison de limitations de temps de calcul et parce que nous prenons comme hypothèse que les membres d un réseau ont une vision réduite à leur entourage immédiat. Ils peuvent avoir conscience d une partie des personnes qui se situent dans leur entourage à distance 2, mais de leur point de vue il n y a pas de différence sensible entre des personnes situées à des distances de 3, 4, voire appartenant à une autre composante connexe : il s agit dans tous les cas de personnes avec lesquelles ils ne partagent aucune connaissance commune. Nouveaux voisins Répétitions Proches Lointains Total Distance = 1 Distance = 2 Distance % 17.2 % 7.2 % 100 % Table II.1 Répartition des commentaires en fonction du type de contact Les liens répétés représentent 75.6 % de l ensemble des commentaires et si l on ajoute à cela les 17.2 % de nouvelles relations avec des voisins proches, on constate que les commentaires sont échangés dans près de 93 % des cas entre des utilisateurs qui sont déjà voisins ou qui ont au moins un voisin en commun. Une grande majorité de l activité du réseau s effectue donc sur de très courtes distances. Ces résultats sont cohérents avec ceux obtenus par Mislove et al. (2008), qui montrent que le modèle d attachement préférentiel proposé par Barabási (1999) ne rend pas bien compte de la très forte proportion de voisins proches, et par Leskovec et al. (2008a), qui soulignent l importance de la transitivité lors de l établissement de nouvelles relations.

65 II/4. Transitivité dans les commentaires Évolution des écarts : les trois âges d un réseau social On observe la même tendance si l on s intéresse seulement aux nouvelles relations : elles concernent dans 70 % des cas des utilisateurs qui ont déjà au moins un contact en commun. La figure II.9 représente l évolution de cette proportion sur l ensemble de la période. On distingue trois étapes successives : d abord une forte augmentation avec un pic de 40 %, puis une baisse qui conduit à un creux fin septembre La proportion ne cesse ensuite de croître pour le reste de la période. On retrouve ici les trois étapes décrites dans Kumar et al. (2006) à propos de l évolution de la densité. Ce n est pas surprenant dans la mesure où un nouveau contact entre deux sommets à distance 2 entraîne la création d un nouveau triangle, ce qui augmente la densité du réseau local. La proportion de voisins proches parmi les nouveaux liens peut donc être considérée comme un bon indicateur de la densité du graphe Phase 1 Phase 2 Phase 3 Nouveaux voisins proches / nouveaux voisins Proportion Temps Figure II.9 Évolution de la proportion de nouveaux voisins proches par rapport à l ensemble des nouveaux voisins Le réseau des commentaires se constitue donc en grande partie à travers des liens courts, le plus souvent au sein du voisinage ou du voisinage à distance 2 des utilisateurs, avec une augmentation de cette tendance tout au long de la période, ce qui entraîne une densification locale du graphe. Si les fortes densités locales de réseaux «petit monde» sont un phénomène bien connu, la part très importante de relations répétées et de nouveaux voisins nous montre que les utilisateurs laissent en pratique peu de place à la rencontre de parfaits inconnus. Cette tendance est surprenante car on s attendrait à ce que les utilisateurs de Flickr privilégient des outils comme le moteur de recherche interne du site pour trouver de nouvelles photographies intéressantes et les com-

66 64 Analyse des commentaires sur Flickr menter. On devrait alors observer des résultats qui correspondraient plus au modèle d attachement préférentiel de Barabási (1999), avec une surreprésentation des thèmes les plus populaires. En pratique, la très forte redondance thématique des groupes de Flickr montre que les utilisateurs ne s intéressent pas seulement au sujet des photographies, mais aussi à leur auteur (Beuscart et al., 2009) : l importance de la transitivité nous laisse penser que les utilisateurs privilégient plutôt les nombreux liens proposés par l interface du site qui permettent de visiter les photographies des contacts et des personnes qui ont déjà déposé des commentaires. Cela correspond à la notion de social browsing, que l on pourrait traduire par «navigation sociale» (Lerman & Jones, 2007). Ces informations nous permettent de mieux comprendre la structure du réseau des commentaires, mais elles ne proposent que des tendances d ordre général : les valeurs moyennes obtenues sont en effet écrasées par le volume des commentaires, et ne peuvent pas rendre compte de la diversité des situations que l on peut rencontrer au sein du réseau. Il est donc nécessaire de s intéresser aux parcours individuels pour s affranchir des effets de masse et mieux comprendre la variété des comportements. Nous reviendrons sur cette question dans la section 1 du chapitre VI. 5 Conclusion Nous avons expérimenté dans ce chapitre différentes manières de modéliser un réseau de liens dynamiques à partir de nos données, et nous avons montré que la structure générale du réseau étudié reste similaire tant que l on ne réduit pas la durée de vie des relations en dessous de la semaine. Il est donc possible d échantillonner le réseau en limitant les observation à une période de temps donnée, et d obtenir des estimations pertinentes pour certaines mesures. Les méthodes de comparaison que nous avons employées sont généralisables à de nombreux graphes de terrain, qu ils soient issus du web ou d autres types de réseaux de communication (téléphonie, mail, pair-à-pair... ). Nous avons aussi introduit la notion de voisinage proche, qui permet de mesurer l importance de la transitivité dans la constitution du réseau, et que nous utilisons dans le chapitre VI pour caractériser différents types d utilisateurs. La compréhension des mécanismes constitutifs de la dynamique des réseaux doit en effet être affinée en prenant en compte l orientation des relations et en étudiant les répercussions des suppressions de liens sur la constitution et l évolution des voisinages des sommets.

67 Chapitre III Du corpus de blogs au corpus Twitter Lorsque ce travail a commencé, Linkfluence disposait déjà du Linkscape, un moteur de recherche sur les blogs et médias français qui repose sur la captation en continu des articles publiés par les médias nationaux et les blogs les plus actifs. Ce système se limite aux sites de médias et aux blogs, et ne prend pas en compte des espaces comme Twitter ou Facebook, qui sont pourtant largement utilisés pour partager ou commenter des informations. Nous avons choisi de travailler sur les données de Twitter pour généraliser cette approche : il s agit d un site sur lequel l essentiel de l activité publiée est publique, et l activité de ses utilisateurs complète bien les informations collectées par le Linkscape en apportant des informations sur le succès des différents articles à travers le nombre de citations de liens. Après le succès spectaculaire des blogs dans les années , le développement et le succès grandissant des sites de médias sociaux comme Twitter ou Facebook se sont traduits par une redistribution des fonctions des différents services. Alors que les blogs remplissaient jusqu alors à la fois une fonction éditoriale (à travers la publication de contenus originaux) et une fonction sociale (à travers de nombreux mécanismes comme l échange de liens, de commentaires et de recommandations), le succès grandissant des sites de micro-publication a entraîné une spécialisation des espaces. Les blogs et sites de médias ont conservé essentiellement une fonction éditoriale, tandis que les fonctions d adressage (c est-à-dire de recommandation, via des liens hypertextes) et sociales (en particulier les discussions entre internautes) se sont largement déportées vers des plateformes telles que Twitter, Reddit ou Facebook. C est donc sur la population de ces «aiguilleurs», c est-à-dire des personnes qui affirment leurs intérêts en pointant des ressources sur le Web, que nous avons choisi de travailler. L étude de ce réseau a un double intérêt. Elle permet de compléter la vision du Web que nous offre le corpus des blogs et 65

68 66 Du corpus de blogs au corpus Twitter des médias en observant la manière dont les utilisateurs réagissent et interagissent à propos de son contenu. Elle permet aussi de déterminer quelles sont les ressources hors Linkscape qui sont les plus recommandées. La difficulté consiste à élaborer un système qui permette de capter une part significative de l activité sur Twitter tout en conservant l objectif d échantillonnage propre aux méthodologies de Linkfluence. Le système doit mettre en relation les articles publiés dans le Linkscape avec les tweets qui les citent, tout en tenant compte des limitations de l API Twitter (qui concernent le type de données que l on peut collecter et la vitesse à laquelle on peut les capter) et des contraintes techniques liées au traitement, au stockage et à l indexation des messages collectés. Nous avons pour cela procédé en suivant deux étapes : nous avons commencé par ne collecter que les messages contenant un lien qui pointe vers un des sites du corpus de blogs. Nous avons ainsi constitué une archive exhaustive des citations d articles qui nous a permis de mieux comprendre comment fonctionnent les recommandations d articles sur Twitter. Nous avons ensuite voulu élargir notre captation en collectant en plus de ces messages tous les messages des utilisateurs qui ont cité au moins une fois un article du corpus de blogs. Pour respecter les contraintes liées au volume de données collectées, et éviter des problèmes de spam, nous avons dû élaborer une méthode pour ne sélectionner que les utilisateurs les plus pertinents. Nous présentons dans un premier temps les résultats obtenus en analysant les liens de citations qui ne portent que sur le corpus de blogs, puis nous expliquons comment nous avons constitué notre échantillon d utilisateurs, avant de présenter brièvement la Twitosphère, qui est le pendant du Linkscape pour les données Twitter. 1 Segmentation communautaire du Linkscape Nous avons travaillé dans un premier temps sur la segmentation du Linkscape en catégories que nous avons présentée dans la section 3.2 du chapitre I. Il s agit d une organisation hiérarchique sur trois niveaux : les continents, subdivisés en territoires, qui sont eux-mêmes composés de communautés. La catégorie qui est associée à chaque site est attribuée par des documentalistes de Linkfluence. Ils s appuient pour cela sur deux critères : le contenu des articles publiés et la structure des liens hypertextes échangés avec les autres sites. Comme l activité des sites du corpus évolue avec le temps, la liste des sites sélectionnés doit être révisée régulièrement pour ajouter de nouveaux sites qui deviennent actifs et éventuellement retirer des sites qui ont cessé de publier. Un premier enjeu a donc consisté à proposer une solution pour faciliter la mise à jour du corpus. Nous nous intéressons pour cela aux sites

69 III/1. Segmentation communautaire du Linkscape 67 qui se trouvent dans le voisinage du corpus, c est-à-dire aux sites qui ont été cités au moins une fois par un des sites du Linkscape, mais qui n en font pas partie. Le travail sur la structure des relations entre les différentes catégories permet aussi de requalifier certains sites qui appartiennent déjà au corpus dans une autre catégorie, soit pour corriger une éventuelle erreur de classification, soit pour tenir compte de l évolution de la politique éditoriale du site. Notre démarche a donc pour but de faciliter l entretien du corpus, en détectant des sites qui devraient être ajoutés au corpus et en proposant des catégories auxquelles les assigner. 1.1 Méthodes simples de catégorisation Une première approche consiste à calculer pour chaque site le nombre de voisins qui appartiennent à chaque catégorie, et de lui attribuer celle qui en contient le plus. Le problème de cette méthode est que la taille des catégories définies par Linkfluence est très hétérogène, ce qui entraine un biais d attribution en faveur des communautés les plus grandes. Pour corriger ce biais, on peut normaliser le nombre de voisins qui appartiennent à chaque catégorie et comparer cette distribution avec celle que l on pourrait attendre si les voisins étaient choisis au hasard parmi tous les sites. On choisit alors la catégorie qui a l écart le plus grand entre la proportion de voisins observée en pratique et la proportion théorique. Communauté Nombre de sites Description gauche 495 Partis de gauche gouvernementale droite 208 infosphère 190 Commentateurs politiques non militants réinfosphère 98 Sympathisants d extrême droite centre 98 extrême droite 89 écologie politique 67 extrême gauche 27 Table III.1 Effectifs des communautés du territoire «politique» Le tableau III.1 illustre ce problème dans le cas des catégories associées aux sites politiques. On constate que les sites associés à la communauté «gauche» sont sept fois plus nombreux que ceux qui sont associés à la communauté «écologie». Si un nouveau site a 10 voisins qui appartiennent à la communauté «gauche» et 8 qui appartiennent à la communauté «écologie», il va être asscocié à la gauche si on considère le nombre de voisins. Si on s intéresse aux proportions de voisins, la gauche représente 55% des voisins, et l écologie 45%, alors que la gauche représente 39% des sites politiques et

70 68 Du corpus de blogs au corpus Twitter l écologie seulement 5%. Si on fait la différence entre les deux valeurs pour chaque communauté, on constate que la communauté «écologie» est citée de manière significative par rapport aux autres catégories, et on peut alors choisir d attribuer cette catégorie au site. Une troisième solution consiste à s appuyer sur le calcul de modularité de Newman (2004) et d attribuer aux sites la communauté pour laquelle la modularité obtenue serait la plus élevée. Ces trois approches ont le défaut de ne considérer que les relations par rapport à une communauté à la fois, alors que l on peut imaginer que certains sites peuvent être mieux définis par la combinaison des relations qu ils entretiennent avec différentes communautés (au sens de communauté d intérêt). Figure III.1 Matrice d interconnexion des territoires du Linkscape La figure III.1 représente la matrice d interconnexion des territoires : les colonnes représentent l origine des liens, les lignes leur destination, et la couleur est proportionelle à la fréquence de citation d une communauté vers une autre. La majeure partie des liens sont échangés entre des sites qui appartiennent à la même communauté, ce qui se traduit par la concentration des densités sur la diagonale.

71 III/1. Segmentation communautaire du Linkscape 69 Nous observons cependant quelques exceptions. La première concerne le territoire «societe/agora», qui reçoit un nombre important de liens en provenance d autres territoires, ce qui se traduit par une ligne horizontale qui est bien visible sur la matrice. Ce territoire contient les sites de médias en ligne, qui ont une activité éditoriale très importante, portant sur des sujets très variés. Ces sites sont souvent parmi les premiers à aborder de nouveaux sujets, et ils sont donc fréquemment cités par des sites issus d autres territoires plus spécialisés. D autres territoires répartissent leurs citations sur plusieurs communautés extérieures. C est le cas par exemple de «societe/marketing_com» qui partagent leurs liens entre leur propre territoire, l «Agora», les «ressources humaines» et les «technologues» (qui traitent essentiellement de l actualité des technologies de l information et de la communication). Le territoire «loisirs/animaux» présente lui aussi un profil de citations particulier car il ne partage pas de lien en interne et les envoie plutôt vers les territoires «societe/agora» et «loisirs/photos». Cette configuration particulière semble indiquer que les blogs qui s intéressent aux animaux s intéressent à deux aspects différents : d une part les photographies animalières et de l autre les articles des médias qui traitent des questions d écologie. Pour tenir compte de ces particularités, nous proposons une méthode de recommandation de communautés qui s appuie sur la notion d équivalence structurale dans les interconnexions entre les communautés. 1.2 Élargissement supervisé de la frontière En analyse des réseaux sociaux, la notion d équivalence structurale est associée à la recherche de «rôles», lorsque les sommets sont assimilés à des acteurs. Si deux sommets ont des voisinages similaires, on considère qu ils ont le même type d influence sur le reste du réseau, et on dit donc qu ils remplissent les mêmes «rôles» et qu ils sont «équivalents». Cette notion peut se traduire en théorie des graphes en comparant le voisinage des sommets : deux sommets u et v sont équivalents dans le graphe G si ils ont le même voisinage : N(u) = N(v). On peut alors décomposer le graphe en classes qui contiennent chacune un ensemble de sommets structurellement équivalents. Ce calcul se fait en appliquant un algorithme d affinage de partition (Paige & Tarjan, 1987). On initialise l algorithme en regroupant tous les sommets de G dans une même classe, puis on parcourt les voisins de chaque sommet et on déplace les voisins dans une nouvelle classe. Cet algorithme a une complexité linéaire en fonction du nombre de liens, il est donc tout à fait applicable dans le contexte de grands graphes. En revanche, les graphes de terrain se décomposent très mal, car la plupart des sommets n ont pas d équivalent strict. Il faut donc recourir à des heuristiques pour définir une équivalence floue, ce qui se traduit par des complexités plus

72 70 Du corpus de blogs au corpus Twitter élevées. Nous avons choisi de conserver l algorithme d affinage de partition pour rechercher des ensembles de sommets équivalents et les regrouper par catégories. Nous avons donc pris le parti de simplifier le graphe sur lequel nous effectuons notre comparaison. Pour cela, nous calculons pour chaque site un vecteur contenant la proportion des liens qu il entretient avec chaque catégorie. Nous simplifions ensuite ce vecteur en appliquant la réduction suivante : les catégories qui reçoivent plus de 40% des relations sont considérées comme des catégories «fortes» ; les catégories qui reçoivent entre 10% et 40% des relations sont considérées comme des catégories «moyennes» ; les catégories qui reçoivent moins de 10% des relations sont considérées comme des catégories «faibles». Cette étape permet de construire un réseau biparti dans lequel chaque site est relié à un ensemble de catégories associées à une pondération : forte, moyenne ou faible. Nous calculons alors des classes d équivalence en appliquant la méthode d affinage de partition sur ce graphe biparti. Les partitions obtenues peuvent contenir à la fois des sites déjà catégorisés et des sites sans catégorie. Nous mesurons la catégorie la plus présente dans chaque partition et nous l attribuons à l ensemble des autres sites si les effectifs de cette catégorie dans la classe considérée dépassent le seuil de 5% du nombre total de sites de la catégorie. En raison de la présence de certaines catégories avec un faible nombre de sites, nous n attribuons pas de catégorie s il n y a pas au moins 5 sites dans la catégorie la plus représentée dans la classe d équivalence. Nous avons appliqué cette méthode à l occasion d un partenariat entre Linkfluence et Wikio 1 qui a permis d enrichir le corpus de sites du Linkscape à partir des sites référencés par Wikio. Chaque site a été catégorisé par les documentalistes de Linkfluence, mais nous avons aussi appliqué notre algorithme, et nous avons comparé les résultats obtenus. Au final, pour un total de sites à catégoriser : à l échelle des continents, 92% des sites ont reçu une proposition de classement et les résultats concordent dans 94% des cas ; à l échelle des territoires, 87% des sites ont une proposition de classement avec 86% de concordance ; à l échelle des communautés, 64% des sites ont une proposition, pour 78% de concordance. Cette méthode pourrait être simplifiée en utilisant des techniques de fouille de données telles que des k-means ou de l apprentissage supervisé 1. Wikio.fr était un portail d actualité consacré aux médias sociaux et aux blogs, qui proposait en particulier un classement des blogs.

73 III/2. Des communautés de sites aux communautés d intérêts 71 à partir du vecteur de proportions de liens vers chaque catégorie, mais les résultats satisfaisants obtenus avec cette méthode permettent de confirmer que les sites appartenant à une même communauté entretiennent souvent le même type de relations avec les autres communautés. Des approches de type block model pourraient donc être pertinentes pour mieux comprendre la structure communautaire et détecter des candidats à l enrichissement du corpus. On pourrait aussi enrichir les résultats en ayant recours à de l analyse sémantique des contenus des sites, ce qui permettrait de traiter plus efficacement les sites qui sont peu liés avec les autres sites du corpus. 2 Des communautés de sites aux communautés d intérêts Cette section correspond à un travail préliminaire qui a pour objectif de comprendre les mécanismes de citation de liens sur Twitter, avant d élaborer une méthode nous permettant de sélectionner des utilistateurs représentatifs des «communautés d intérêts» dessinées par ces liens de citations. Notre objectif est de suivre sur Twitter les utilisateurs dont les intérêts correspondent aux communautés que nous avons définies pour notre corpus de blogs et de médias. Nous nous intéressons donc aux utilisateurs qui citent ces sites dans leurs statuts Twitter. Pour cela, nous recherchons pour chaque site l ensemble des messages qui contiennent un lien vers une de ses pages : le cumul des informations sur l ensemble des sites du Linkscape nous permet de repérer les utilisateurs qui les citent le plus et nous en déduisons leurs centres d intérêts, lorsque la majorité des citations d un même utilisateur se porte sur les sites d une même catégorie. Pour résoudre les difficultés liées au choix des utilisateurs à suivre et à leur représentativité, nous nous sommes intéressés dans un premier temps aux statuts qui contiennent des liens vers des sites qui appartiennent à notre corpus de blogs et de médias, avec l idée que ces citations vont nous permettre de dessiner les contours de «communautés d intérêts» et nous donner une première prise pour l analyse de ce réseau. Nous collectons l ensemble des tweets qui contiennent un lien vers un des sites du Linkscape, et nous extrayons ensuite du contenu des messages les relations avec d autres utilisateurs en nous appuyant sur les syntaxes des mentions et des retweets. Nous construisons avec ces informations le réseau des relations interpersonnelles, non pas telles qu elles sont déclarées par les utilisateurs (ce qui reviendrait à extraire listes d amis et de followers), mais telles que leurs interactions nous permettent de les décrire. Nous présentons dans cette section les résultats que nous avons obtenus en analysant les pratiques de citation des utilisateurs, en fonction de leur communauté de prédilection. La section 3 de ce chapitre est consacrée à la méthode d échantillonnage que nous avons élaborée pour enrichir notre

74 72 Du corpus de blogs au corpus Twitter corpus de données Twitter avec tous des messages publiés par des utilisateurs sélectionnés parce qu ils citent le Linkscape à plusieurs reprises. 2.1 Les pratiques de citation sur Twitter De fortes disparités en fonction des territoires cités Nous avons extrait un mois de données (du 15 janvier au 14 février 2010), ce qui correspond à une base de statuts rédigés par utilisateurs. La limitation de notre corpus aux seuls messages qui contiennent un lien hypertexte nous permet de capturer une part non négligeable de mises en relations entre utilisateurs, puisque nous disposons de statuts qui contiennent au moins une citation d utilisateur, que ce soit sous la forme d un «RT» d un «VIA», ou d une simple mention du préfixe «@», ce qui représente 30% de l ensemble des messages. TECHNOLOGUES SPORTS CULTURE MARKETING_COMM POLITIQUE RH VOYAGE X- SPORTS MAISON 0% 5% 10% 15% 20% 25% 30% 35% 40% 45% % des uclisateurs % des messages Figure III.2 Proportions de citations des territoires en fonction de l ensemble de notre corpus En croisant ces informations avec les territoires que nous avons définis pour chaque site, nous pouvons dresser un premier tableau des disparités au sein de notre corpus. La figure III.2 présente pour chaque territoire la part que représente le volume des messages qui pointent un de ses sites par rapport au volume global des messages («% des messages»), et la part que représente le nombre d utilisateurs qui ont envoyé au moins un lien vers le territoire par rapport à l ensemble des utilisateurs («% des utilisateurs»). Les territoires sont triés par volume décroissant de publications de statuts.

75 III/2. Des communautés de sites aux communautés d intérêts 73 Nous constatons d emblée un fort déséquilibre dans la répartition du nombre de publications. Les médias («INFOPITS») représentent 35,6% de l ensemble des publications, soit un peu plus d un tiers des citations. Cela confirme la fonction de commentaire en temps réel de l actualité promue par Twitter et souligne le poids très important que conservent les médias dans la diffusion de l information, comme le montre l expérience du meme-tracker réalisée par Leskovec et al. (2009). Elles sont suivies par la communauté des nouvelles technologies («TECHNOLOGUES») qui représente 25,5% des publications. La domination de ces deux territoires est encore plus prononcée si on s intéresse au volume des utilisateurs. Les technologues se positionnent alors comme la première communauté d intérêt, avec 38,1% des utilisateurs du corpus, alors que les médias en représentent 35,9%. Comme environ 10% des utilisateurs ont cité à la fois les médias et les technologues, on constate que l audience cumulée de ces deux territoires représente plus de la moitié de l ensemble des utilisateurs de notre corpus. A l opposé, on constate que les sites de santé, mais aussi les sites centrés sur la famille, les loisirs créatifs, la décoration (territoires «FOYER» et «MAISON») sont très peu cités. TECHNOLOGUES MARKETING_COMM INFOPITS APPARENCE SPORTS AGORA CULTURE CUISINE CARNETS JEUX_VIDEO VOYAGE RH POLITIQUE SANTE AUTOMOBILE X- SPORTS MAISON FOYER 0% 5% 10% 15% 20% 25% 30% 35% 40% % de billets (sites) % de statuts (TwiOer) Figure III.3 Ecarts entre le volume de publications des territoires et le volume de citations de Twitter Pour mettre en perspective ces résultats, nous comparons pour chaque territoire la proportion de citations dans les statuts de Twitter avec la proportion de billets ou d articles publiés sur les sites de notre corpus, pendant la même période. La figure III.3 représente ces écarts en présentant les territoires par ordre décroissant en fonction de leur propension à être cités, que

76 74 Du corpus de blogs au corpus Twitter nous calculons en faisant le rapport entre la proportion de citations sur Twitter et la proportion de publications de billets sur les sites de nos territoires. Cette comparaison nous permet d identifier les territoires qui sont surreprésentés sur Twitter : la proportion du volume de citations des «technologues» sur Twitter est ainsi trois fois supérieure à celle du volume de billets publiés sur les sites de notre corpus (25,5% contre 8%) et celle des médias est 2,3 fois supérieure (35,6% contre 14,9%). On remarque aussi que le territoire marketing communication («MARKETING_COMM») est lui aussi surreprésenté sur Twitter, et que les territoires apparence, sports et agora (qui regroupe les discussions de non-militants sur des sujets de société) sont à peu près autant cités dans les deux corpus. A l inverse, les territoires maison et foyer sont respectivement cités 30 fois moins et 72 fois moins sur Twitter que sur les sites de notre corpus, où le territoire foyer représente 6% des billets. Dans une moindre mesure, les territoires automobile et politique sont également sous-représentés. Ces fortes disparités s expliquent bien sûr par l adéquation entre le type de média que représente Twitter et les publics qui l utilisent. En France, Twitter restait en 2010 un outil principalement utilisé par un public spécialisé, adepte des nouvelles technologies, intéressé par le suivi et le commentaire de l actualité en temps réel ou par les perspectives qu offre cet outil en termes de communication et de marketing. Cette forte spécialisation coexiste avec d autres communautés d intérêts, comme en témoigne la présence de communautés comme apparence et cuisine, plus associées au web féminin. Leur moindre représentation dans notre corpus Twitter peut aussi être liée à un biais de mesure que nous introduisons en ne nous intéressant qu aux messages qui contiennent un lien vers un site : la pratique de citation de lien dans les tweets n est sans doute pas répartie de manière homogène, et pourrait être marginale dans certains territoires. Les pratiques de recommandation et d homophilie Pour mieux comprendre les disparités dans les pratiques des différentes communautés d intérêts, nous regardons dans quelle mesure les utilisateurs qui pointent un site ont tendance à lui associer le nom d un utilisateur, ce qui revient à mesurer la tendance de chaque territoire à associer une recommandation à ses citations. Cette recommandation peut porter sur l utilisateur, dans le cas d un «RT» ou d un «VIA», mais elle peut aussi porter sur le contenu, lorsque le message contient simplement une référence à un contact et que l on considère que le contenu du lien pourrait l intéresser. La figure III.4 représente ces proportions 2 : la longueur des barres corres- 2. Dans le cadre de cette sous-section, nous avons retiré des représentations les communautés dont le volume de publication est inférieur à 1000 messages et donc trop faible pour avoir une réelle signification statistique. Il s agit des communautés «VOYAGES»,

77 III/2. Des communautés de sites aux communautés d intérêts 75 RH MARKETING_COMM APPARENCE AGORA TECHNOLOGUES CULTURE CUISINE CARNETS INFOPITS POLITIQUE JEUX_VIDEO AUTOMOBILE SPORTS 0% 10% 20% 30% 40% 50% 60% %RT %VIA %AT Figure III.4 Proportion des messages citant un utilisateur, pour chaque territoire pond pour chaque territoire à la proportion de messages qui mentionnent au moins un utilisateur par rapport à l ensemble des messages qui citent le territoire. Les couleurs montrent la répartition des différents types de citations, le libellé «%AT» représentant les messages qui mentionnent un utilisateur sans le mentionner explicitement comme la source de l information. On constate ainsi que les territoires qui pratiquent le plus la recommandation sont les ressources humaines et le marketing et communication, avec respectivement 53,4% et 50,3% de messages qui associent au moins un utilisateur au lien hypertexte. A l inverse, les territoires jeux vidéo, automobile et sports pratiquent peu la recommandation (elles représentent respectivement 15,5%, 11,6% et 5,9% des messages) et se contentent de proposer des liens à l ensemble de leurs contacts, sans faire l effort de cibler leurs recommandations. Enfin, le territoire cuisine se distingue nettement par la proportion de messages adressés qui ne contiennent ni «RT», ni «VIA», ce qui témoigne d une moindre adoption de ces conventions au sein de la communauté d intérêt, mais aussi d une pratique plus fréquente de la recommandation directe entre utilisateurs. Pour affiner ces informations, nous mesurons la proportion d utilisateurs qui n ont cité qu un seul territoire, ce qui nous donne un indicateur du degré d ouverture ou de fermeture des territoires. Cette information est représentée sur la figure III.5, les territoires sont classés par homophilie décroissante. Nous représentons également pour chaque territoire la proportion que représente le volume des messages émis par ces utilisateurs exclusifs. Nous constatons que le territoire cuisine compte 86,1% d utilisateurs qui l ont cité exclusivement, et que les messages de ces utilisateurs représentent «SANTE», «X-SPORTS», «FOYER» et «MAISON».

78 76 Du corpus de blogs au corpus Twitter CUISINE AUTOMOBILE APPARENCE SPORTS TECHNOLOGUES INFOPITS RH JEUX_VIDEO CULTURE AGORA CARNETS MARKETING_COMM POLITIQUE 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% % des messages % des ullisateurs Figure III.5 Proportion d utilisateurs n ayant cité qu un seul territoire en fonction du nombre total d utilisateurs par territoire, et volume relatif de leurs messages 84,4% de l ensemble des messages qui citent le territoire. Les territoires automobile, apparence et sports se distinguent eux aussi par une forte homophilie de leur communauté. Les territoires les plus ouverts sont sans surprise les territoires politique, marketing et communication, blogs («CARNET») et agora, qui sont essentiellement tournés vers la communication et se partagent une grande partie de leurs utilisateurs. Enfin, les technologues comptent 60,2% d utilisateurs exclusifs, ce qui souligne leur caractère fortement communautaire. Ces deux indicateurs nous permettent de dresser une première typologie des pratiques de citation sur notre corpus d étude, en distinguant les territoires en fonction de leurs pratiques de recommandation et du degré d exclusivité des citations de leurs utilisateurs. La figure III.6 a été obtenue en projetant ces deux indicateurs sur un espace en deux dimensions : l axe des abscisses correspond aux pratiques de recommandation des territoires, en plaçant les territoires qui recommandent le plus sur la droite et l axe des ordonnées correspond à la proportion d utilisateurs uniques. La surface des disques correspond au nombre relatif d utilisateurs qui citent chaque territoire par rapport à l ensemble des utilisateurs de notre corpus. Des pratiques similaires de citation de liens se traduisent par une proximité des communautés sur cette projection. Cette représentation nous permet de rapprocher les communautés «ressources humaines» et «marketing et communication» qui se distinguent par

79 III/2. Des communautés de sites aux communautés d intérêts % ProporHon d'uhlisateurs ne citant que le territoire 90% 80% 70% 60% 50% 40% 30% 20% 10% AUTOMOBILE 1,72% SPORT 8,14% JEUX VIDEO 2,58% POLITIQUE 1,69% CUISINE 1,23% APPARENCE 5,24% TECHNOLOGUES 25,54% INFOPITS 35,63% RH CULTURE 1,17% 4,20% AGORA 9,88% CARNETS MARKETING 0,67% COMM 1,79% 0% 0% 10% 20% 30% 40% 50% 60% ProporHon de messages contenant des citahons (@, RT, VIA) Figure III.6 Pratiques de citation des territoires en fonction de la proportion de recommandations (en abscisses) et de leur degré d ouverture (en ordonnées). La surface des disques est proportionnelle au volume relatif du nombre d utilisateurs de chaque territoire leur très forte pratique de recommandation et leur ouverture. Nous observons aussi de fortes similitudes pour les territoires culture, agora et carnets, qui se partagent une grande partie de leur public et sont donc très ouvertes. Les territoires cuisine et apparence se distinguent par le caractère très fermé de leurs communautés et par une forte pratique de la recommandation associée au lien, par opposition aux territoires sports et automobile qui sont également homophiles mais qui recommandent peu leurs liens. Les technologues se démarquent légèrement des médias par une propension un peu plus grande à l homophilie. Enfin, nous constatons la présence de deux territoires plus atypiques : jeux vidéos, qui recommandent peu et qui sont relativement ouverts (sans doute en raison des communautés d intérêts avec les utilisateurs du territoire technologues) et politique, qui se distingue par une grande ouverture et une communication de liens avec peu de références à des utilisateurs. 2.2 Perspectives Ces observations demandent à être nuancées, d une part en complétant notre base de messages avec les messages qui ne contiennent pas de lien hypertexte (ou qui contiennent un lien vers un site n appartenant pas à notre corpus de référence), et d autre part en abordant la diversité des pratiques en partant des utilisateurs et non des territoires. Quelques observations em-

80 78 Du corpus de blogs au corpus Twitter piriques permettent en effet d affiner nos observations : nous constatons ainsi que si certains utilisateurs associent fréquemment des liens hypertextes et des références à des contacts dans leurs messages, d autres utilisateurs citent les liens hypertextes dans certains messages et s adressent directement à leurs contacts dans d autres. C est particulièrement vrai dans les territoires «cuisine» et «apparence» où les pratiques de citations de liens représentent une minorité de messages, alors que les utilisateurs entretiennent de véritables conversations. Il serait à ce titre essentiel de compléter notre typologie en rapportant nos observations à l ensemble des messages rédigés par les utilisateurs. La forte dimension temporelle de ce type de réseau demande aussi à être étudiée, dans la mesure où les messages échangés n ont de sens que dans un contexte très court, avant d être littéralement balayés par les messages plus récents. Il serait en effet intéressant de mesurer la réactivité des utilisateurs lors de la citation d une ressource ou lors de la réponse à un autre utilisateur, ce qui permettrait sans doute de distinguer les utilisateurs selon qu ils utilisent le service en tant qu outil d information ou de communication en temps réel. Cette approche permettrait enfin d étudier le renouvellement des utilisateurs actifs et l évolution éventuelle de leurs pratiques, dans un contexte où une part importante des nouveaux utilisateurs abandonne le service après quelques semaines et où les pratiques évoluent rapidement. L élargissement de notre corpus de statuts à l ensemble des messages publiés par les utilisateurs est donc nécessaire, pour nous permettre d étudier le rapport entre la structure des contacts déclarés (listes d amis et de followers) et celle des interactions que nous pouvons observer dans les messages à travers les mentions d utilisateurs. La section suivante est consacrée à l élaboration de la méthode d échantillonnage que nous avons élaborée pour remplir cet objectif. 3 Échantillonnage des utilisateurs La captation de Twitter a pour objectif de suivre les utilisateurs de Twitter qui s intéressent au Linkscape, en le citant dans leurs messages. La constitution de ce corpus obéit aux mêmes principes que pour le corpus de blogs et de médias : on ne cherche pas à être exhaustif mais plutôt à échantillonner les utilisateurs en ne retenant que les utilisateurs les plus actifs. La catégorisation en continents, territoires et communautés permet de qualifier les liens de citation et de projeter les catégories définies dans le Linkscape sur le réseau Twitter. Cette sélection doit également être entièrement automatique, car les utilisateurs de Twitter sont trop nombreux et leur activité trop irrégulière pour que leur sélection soit validée par les documentalistes. La captation des données doit donc se mettre à jour de manière autonome, sans intervention

81 III/3. Échantillonnage des utilisateurs 79 humaine. La base ainsi obtenue doit permettre d étudier ces communautés en adoptant une approche différentielle : elle n a pas pour objectif d être représentative de l ensemble des utilisateurs de Twitter mais elle doit permettre d identifier les comportements spécifiques à plusieurs groupes d utilisateurs, en les comparant au comportement global de l échantillon. Elle nous permet aussi de constituer un multi-réseau qui associe notre corpus de sites (qui échantillonne le web éditorial) et le corpus Twitter (qui échantillonne le web en «temps réel» ou streamweb) et d étudier les interactions entre ces deux espaces. 3.1 Échantillonnage des utilisateurs L échantillonnage se fait en plusieurs temps : une première étape consiste à rechercher dans Twitter les messages qui contiennent au moins un lien qui pointe vers le Linkscape. Cette approche permet de s affranchir d une exploration de Twitter en «boule de neige» (c est-à-dire avec un parcours en largeur à partir d un ou plusieurs sommets dans le graphe) : elle fixe un critère simple d inclusion dans le corpus et elle permet de s assurer que les individus retenus ont manifesté de l intérêt pour un des sites du Linkscape. Elle présente cependant plusieurs inconvénients : les utilisateurs ont une activité très intensive sur Twitter, ce qui peut poser des difficultés en terme de stockage et d indexation des données. Par ailleurs, certains sites peuvent avoir une audience qui dépasse le cadre du Linkscape : des sites comme apple.com ou fubiz.net sont cités dans de nombreux tweets d utilisateurs du monde entier et les autres messages de ces utilisateurs n ont souvent aucun rapport avec ce corpus. Enfin, beaucoup d utilisateurs ont une activité très irrégulière, ce qui peut entrainer des difficultés pour conserver un nombre d utilisateurs compatible avec les limitations de l API Twitter. Comme celle-ci limite le nombre de requêtes que l on peut effectuer dans une fenêtre de temps, il est important d éviter d envoyer des requêtes pour des utilisateurs qui ont cessé d être actifs, ou bien pour des comptes de spammeurs. C est pour cette raison que la sélection des utilisateurs doit être mise à jour régulièrement. Nous cherchons donc à limiter notre sélection aux utilisateurs qui citent le Linkscape de manière significative, tout en maximisant la couverture des citations recueillies : l échantillon doit être représentatif de la variété et du volume des citations attachées aux sites et aux urls de notre corpus. Méthode naïve Pour affiner la sélection des utilisateurs, nous nous appuyons sur le nombre de sites appartenant au Linkscape vers lesquels ils ont cité un lien : nous disposons de cette information dès la première étape de notre captation et elle

82 80 Du corpus de blogs au corpus Twitter est plus pertinente que le nombre brut de messages publiés, qui ferait ressortir en premier lieu les comptes de robots ou de spam. Nous considérons aussi que le nombre de sites cités est un bon indice de la concordance des intérêts de l utilisateur avec les sujets qui sont traités dans notre corpus de sites : un utilisateur intéressé par un sujet aura plus de chances de consulter et de citer des sources variées sur ce domaine. Une première solution consiste à fixer un seuil N et à ne sélectionner un utilisateur que s il a cité au moins N sites appartenant au Linkscape. En fixant ce seuil à 2, nous évitons de sélectionner des utilisateurs étrangers qui citent ponctuellement un site et nous filtrons les utilisateurs qui se contentent de faire de l auto-promotion. Cette solution présente plusieurs inconvénients : le paramètre N peut être trop grossier si nous voulons augmenter la valeur du seuil pour limiter le nombre d utilisateurs sélectionnés. La distribution du nombre de sites cités par chaque utilisateur est en effet fortement hétérogène et est marquée de forts paliers entre les utilisateurs qui ont cité 2 ou 3 sites par exemple. Deuxième méthode : calcul d un score de confiance Une deuxième approche consiste à calculer un score de confiance pour chaque site qui indique dans quelle mesure un utilisateur qui le cite va avoir tendance à citer aussi d autres sites du Linkscape. Soit I l intervalle sur lequel on effectue le calcul. En pratique, nous avons choisi de fixer cet intervalle à la dernière semaine, ce qui correspond à un cycle de volumes de publications cohérent. Pour chaque utilisateur u, nous notons S(u) l ensemble des sites que cet utilisateur a cités au cours de l intervalle I. Pour chaque site s, nous notons U(s) l ensemble des utilisateurs qui l ont cité au moins une fois. Nous calculons également pour chaque utilisateur un score de h-index : un utilisateur a un indice h s il a au moins cité h sites différents h fois chacun. Cette mesure nous permet de mesurer la variété des citations effectuées par un utilisateur. Nous calculons pour chaque site un score de confiance, noté C(s), qui correspond à la proportion d utilisateurs qui ont un h-index supérieur ou égal à 2 parmi tous les utilisateurs qui ont cité au moins un lien vers le site. Le score de confiance de chaque utilisateur σ(u) correspond à la somme des scores de confiance des sites que l utilisateur a cités : σ(u) = s S(u) C(s) Contrairement au score de confiance des sites qui est compris entre 0 et 1, le score de confiance des utilisateurs n a pas de borne supérieure.

83 III/3. Échantillonnage des utilisateurs 81 On calcule ensuite un seuil de confiance des sites en prenant la médiane des scores des sites qui ont reçu au moins un lien et on retient les utilisateurs dont le score est supérieur ou égal à cette médiane. Cela signifie qu on ne retient un utilisateur que s il a cité un site avec un fort score de confiance ou s il a cité plusieurs sites avec un faible score de confiance. 3.2 Évaluation des méthodes d échantillonnage Nous effectuons des simulations de ces stratégies de sélection sur les données du Linkscape, du 1er avril 2010 au 1er juin Nous effectuons un calcul de sélection par jour en utilisant l intervalle des 7 derniers jours. Nous comparons ensuite le nombre d utilisateurs sélectionnés, le nombre de tweets qu ils ont écrits, le nombre de sites et d url qu ils ont cités par rapport à l ensemble des utilisateurs de notre corpus. Comparaison des deux méthodes Les figures III.7 et III.8 représentent l évolution de la proportion des utilisateurs sélectionnés par rapport à l ensemble des utilisateurs de notre corpus, ainsi que la proportion de leurs tweets, des sites et des url qu ils ont cités. La figure III.7 correspond à la statégie de sélection avec un seuil de 2 sites et la figure III.8 correspond à la stratégie de sélection par score de confiance. Sans tenir compte des valeurs de la première semaine, qui correspondent au temps de mise en place de l intervalle de 7 jours, nous constatons que les proportions sont relativement stables pour tous ces indicateurs, quelle que soit la stratégie de sélection adoptée. Sans surprise, la proportion des utilisateurs sélectionnés par la méthode naïve est plus faible (environ 50% en moyenne) que celle obtenue par le calcul des scores de confiance (environ 60% en moyenne) : la deuxième méthode permet en effet de sélectionner des utilisateurs qui n ont cité qu un seul site si celui-ci a un score de confiance élevé. Nous constatons aussi que si les proportions de sites cités sont dans les deux cas proches des 75%, la sélection par les scores de confiance permet une meilleure couverture de la variété des url citées, avec une proportion moyenne de plus de 70%, contre 60% dans le cas de la sélection naïve. Les deux stratégies se distinguent beaucoup si l on compare l évolution du nombre total d utilisateurs sélectionnés (figure III.9). La stratégie naïve sélectionne près de utilisateurs par jour alors que la stratégie de sélection par les scores de confiance n en sélectionne qu un peu plus de Cette stratégie basée sur le score de confiance est donc plus efficace : elle nous permet d obtenir la même qualité d échantillonnage en sélectionnant moins d utilisateurs et elle assure une meilleure couverture de la variété des url citées.

84 82 Du corpus de blogs au corpus Twitter tweets utilisateurs sites URL Figure III.7 Évolution des proportions d utilisateurs sélectionnés, de leurs tweets, des sites et des url qu ils ont cités (méthode naïve) tweets utilisateurs sites URL Figure III.8 Évolution des proportions d utilisateurs sélectionnés, de leurs tweets, des sites et des url qu ils ont cités (scores de confiance). Comparaison des classements des sites et des url L une des principales applications de notre corpus consiste à comparer le nombre de citations entre les sites ou les url. Pour nous assurer que notre échantillonnage reste représentatif du volume et de la hiérarchie de ces citations, nous classons les sites et les url cités par les utilisateurs sélectionnés en fonction de leur nombre de citations a) pour l ensemble de notre corpus et b) en ne considérant que les citations des utilisateurs sélectionnés. Nous comparons les rangs obtenus pour ces deux classements (que nous appellerons respectivement x et y) en calculant le coefficient de corrélation de rangs de Spearman : ρ = 1 6 (x i y i ) 2 N 3 N Ce coefficient mesure la force de l association des classements des deux ensembles : x i et y i correspondent aux rangs d un individu i dans les ensembles x et y, et N correspond au nombre total d éléments dans x et y. Le coefficient ρ est compris entre 1 et 1 : une valeur de 1 correspond à une correspondance parfaite des deux classements, 0 à une absence de corrélation et 1 à

85 III/3. Échantillonnage des utilisateurs selection naive score de confiance Figure III.9 Évolution du nombre d utilisateurs sélectionnés pour les deux méthodes (en haut) et proportion du nombre d utilisateurs sélectionnés par le score de confiance par rapport au nombre d utilisateurs sélectionnés par la méthode naïve (en bas). une corrélation négative. Nous effectuons ce calcul pour les sites, puis pour les url. La figure III.10 représente l évolution de ce coefficient pour l ensemble de la période. Nous avons sélectionné les utilisateurs en fonction de leur score de confiance (la méthode naïve donne des résultats similaires). Les sites et les url sont classés en fonction du nombre de citations reçues sur l intervalle des 7 derniers jours. Nous constatons que le coefficient de corrélation est très élevé, pour les sites comme pour les url. Nous effectuons le même calcul en ne retenant que les sites et les url qui ont été cités au moins 10 fois afin de nous assurer que cette forte corrélation n est pas provoquée par le nombre important de sites et d url qui reçoivent peu de citations et se trouvent donc classés de la même façon dans les deux listes toutes URL tous sites URL >= 10 sites >= Figure III.10 Évolution du coefficient de corrélation de rangs pour l ensemble des sites et des url (en haut) et pour les sites et les url qui ont été cités au moins 10 fois (en bas). Le décrochement qui apparaît pour les url le 17 avril correspond à un

86 84 Du corpus de blogs au corpus Twitter accident de mesure : la captation a en effet recueilli très peu de tweets ce jour là. Cette forte corrélation n est pas surprenante, puisque nous sélectionnons une majorité de sites et d url lors de notre échantillonnage. Il serait judicieux de comparer ces scores en sélectionnant dans notre corpus un échantillon aléatoire de taille équivalente et en calculant les scores de corrélation obtenus pour les sites et les url qui y seraient cités. Ces mesures montrent que la sélection par score de confiance préserve l essentiel de la hiérarchie des citations, qu il s agisse des sites ou des utilisateurs. Détection de la langue Comme le Linkscape et les utilisateurs de Twitter qui le citent se caractérisent par un emploi majoritaire du français, nous effectuons un test de reconnaissance de la langue utilisée dans les tweets afin de confirmer la pertinence de notre sélection. Nous appliquons pour cela un algorithme de reconnaissance de la langue qui s appuie sur trois méthodes de calcul : la reconnaissance des trigrammes, des préfixes et des suffixes. En raison du caractère très court des tweets et de leur contenu particulier (retweets, mentions, hashtags), nous supprimons des messages les citations d url, les mentions d utilisateurs et les hashtags, et nous ne procédons à l analyse que sur les messages qui contiennent au moins quatre mots après ce filtrage. Cette méthode d analyse classe les messages en trois catégories : les messages en français, les messages en anglais, et les messages «inconnus» qui correspondent aux messages trop courts pour être analysés ou à ceux pour lesquels l analyse a échoué ou trouvé une autre langue. Nous effectuons la détection de langue sur l ensemble du corpus et sur les messages sélectionnés avec la méthode des scores de confiance (la méthode naïve donne des résultats similaires). La table III.2 présente les répartitions des langues détectées, pour l ensemble de la période. Français Inconnu Anglais Total Corpus % 32% 6% Sélection % 28% 3% Table III.2 Répartition des tweets en fonction de la langue détectée. La figure III.11 montre l évolution de la proportion de messages retenus lors de la sélection pour chaque catégorie. Notre sélection retient en moyennne plus de 75% des messages en français, près de 60% des messages «inconnus» et moins de 50% des messages en anglais. Notre stratégie de

87 III/3. Échantillonnage des utilisateurs francais inconnu anglais Figure III.11 Évolution de la proportion des messages retenus lors de la sélection pour chaque langue. sélection nous permet donc de filtrer une grande proportion des utilisateurs étrangers qui citent des sites de notre corpus de manière ponctuelle. Nous avons également extrait l ensemble des textes traités et les avons regroupés par langue détectée. Une évaluation qualitative des différents textes confirme nos résultats : si les textes classés en «français» et en «inconnu» sont majoritairement français (ou, pour la catégorie «inconnu», des messages qui ne contiennent pas suffisamment de texte pour être classés), la lecture des textes classés en «anglais» semble confirmer que l essentiel des messages des utilisateurs sélectionnés correspond à des messages en français comportant une part importante de termes en anglais. La table III.3 illustre notre propos en proposant quelques exemples de verbatims sélectionnés de manière aléatoire parmi les différents ensembles. 3.3 Discusssion Nous avons expérimenté deux stratégies d échantillonnage des utilisateurs à partir de notre corpus. La première consiste à ne retenir que les utilisateurs qui ont cité au moins deux sites différents appartenant au Linkscape, et la deuxième s appuie sur le calcul d un score de confiance pour les sites et les utilisateurs. Ces deux méthodes se révèlent efficaces à plusieurs titres : elles permettent de capturer l essentiel de l information (de nombre de messages, variété de citation de sites et d url). Elles préservent la hiérarchie de ces citations et permettent de filtrer efficacement les utilisateurs étrangers qui citent ponctuellement notre corpus. La stratégie de sélection par le score de confiance se révèle plus efficace que la stratégie naïve car en sélectionnant près de trois fois moins d utilisateurs, elle permet d obtenir une plus grande variété d url tout en étant aussi performante pour les autres indicateurs. Elle permet également d adapter notre sélection à l évolution des usages des utilisateurs de Twitter : contrairement au choix d un seuil fixe, la médiane des scores de confiance des sites dépend de l activité de citation. Si par exemple un billet de lemonde.fr est cité ponctuellement par un grand nombre d étrangers, le score de confiance

88 86 Du corpus de blogs au corpus Twitter M$ critique à son tour Flash Lancement de la journée sur l insuffisance cardiaque Français Inconnu Anglais basket Basket - NBA - Williams se veut rassurant: On pouvait craindre le pire pour Deron Williams mais les... Vodka&Co.: Cocktail Bart&Baker special par Alain Duquesnes cocktail-bart-baker-specialalain-duquesnes /01/le-loft-parfait-estsous-marin.html Referencia - Patrick Monkel /patrick-monkel/ Mob lynching of the prime suspect in the murder of an elderly couple and their two granddaughters shocks Lebanon Mesurez votre #influence #Twitter What size are your Twitter Boobs? Measure your Twitter influence - RT svp ;) was great #Nadal :) the best! won his 17th master!! #tennis Le concept #ebike de #Volkswagen se range à la place de la roue de secours w3sh.com #designart un dessin vaut mieux qu un long discours : Marée noire: stations balnéaires ou stationsservice? Ligue des Droits de l Homme - Non à la casse du service public! Keisha Simpsonisée : Un robot à l #équilibre surnaturel fb/d8wkq Gizmodo.fr #robots #balle A quoi me sert l ipad Twikio et Twitter > La fin du ranking à la Google? Excellente analyse de Benoit Raphaël ÉTATS-UNIS - Tentative d attentat déjouée à New York: Une tentative d attentat a été déjouée samedi 1er mai au soi... Bilan de l marketing en #ebusiness Table III.3 Exemples de verbatims sélectionnés aléatoirement pour chaque type de langue détectée. La ligne du haut correspond aux messages issus de l ensemble du corpus, la ligne du bas aux messages des utilisateurs sélectionnées.

89 III/4. Construction de la Twitosphère 87 du site va baisser et ces utilisateurs ne seront probablement pas sélectionnés, même s ils citent à cette occasion un autre média appartenant au Linkscape. Le caractère adaptatif de notre méthode est important car les pratiques de citation d un site peuvent évoluer, avec des pics de citation qui peuvent être liés à un évènement ponctuel. Par exemple, des élections ou une compétion sportive peuvent fortement modifier la hiérarchie des citations. La sélection doit pouvoir être appliquée à d autres corpus de blogs et de médias possédant des caractéristiques linguistiques et des types de contenus (comme la proportion entre blogs et journaux en ligne) qui peuvent beaucoup varier. 4 Construction de la Twitosphère L implémentation des travaux présentés dans ce chapitre a permis de réaliser la Twitosphère, une chaîne de captation des données de Twitter qui est actualisée automatiquement à partir du corpus de sites du Linkscape. Les données collectées sont indexées et mises à disposition dans un moteur de recherche qui permet de filtrer les résultats en fonction du contenu, de la date, et des catégories des sites cités dans les messages. 4.1 Anatomie de la chaîne de captation Le système fonctionne en trois étapes : tous les messages qui contiennent un lien vers un site du Linkscape sont collectés ; nous collectons tous les messages des utilisateurs sélectionnés. nous appliquons la méthode de sélection basée sur les scores de confiance sur ces messages. La liste des utilisateurs sélectionnés est mise à jour chaque jour, à partir des données de la semaine passée, pour amortir les irrégularités des cycles de publication ; Les tweets qui contiennent des liens hypertextes font l objet de plusieurs traitements avant d être stockés et indexés. Une première étape consiste à résoudre les urls, c est-à-dire à suivre les éventuelles redirections pour déterminer quelle est l url de destination du lien hypertexte. Comme la taille des messages est limitée à 140 caractères, les urls sont souvent trop longues pour être intégrées et sont remplacées par une version «raccourcie» : des services spécialisés permettent en effet de créer des urls très courtes, facilement intégrables dans un tweet et qui redirigent sur la version longue lorsqu on les suit. Ces services ont d abord été proposés par des entreprises extérieures (comme bit.ly), avant que Twitter ne crée son propre service, t.co et l intègre systématiquement dans sa plateforme. Les urls résolues sont ensuite normalisées, afin de les rendre comparables entre elles pour des traitements statistiques et des agrégations. De nombreux sites ajoutent des paramètres optionnels qui facilitent le suivi de l audience de leur page. Ces paramètres permettent en effet de déterminer si un lien

90 88 Du corpus de blogs au corpus Twitter a été trouvé via un flux RSS, un ou via une campagne de publicité, par exemple. Certains de ces paramètres sont génériques et utilisés par de nombreux sites, d autres sont spécifiques et doivent être détectés site par site. Les urls sont enfin enrichies avec des métadonnées lorsqu elles appartiennent à un site sur lequel Linkfluence dispose d informations supplémentaires. Il s agit du site auquel elles appartiennent (celui-ci peut être différent du domaine, par exemple dans le cas de certaines plateformes de blogs), de la langue et du pays du site, et éventuellement des corpus et des catégories auxquels le site est associé. Tous les messages sont analysés pour en extraire les mentions d utilisateurs, les retweets et les hashtags. La principale difficulté que nous avons rencontrée est liée à l évolution des API de Twitter : les services permettant de rechercher les tweets qui contiennent des urls, ou bien de suivre en continu les messages des utilisateurs ont été modifiés à plusieurs reprises depuis janvier 2010, ce qui a nécessité de nombreuses réécritures du système de captation. 4.2 Indexation et passage à l échelle Les messages captés par la chaîne sont stockés et indexés pour être interrogeables grâce à un moteur de recherche. La mise en place de ce moteur de recherche a nécessité la mise en place d une architecture adaptée au volume important de tweets collectés. Le système a capté un total de tweets du 1er septembre 2011 (date où le système de captation est entré en production à Linkfluence) au 1er mai % des tweets de ce corpus contiennent au moins un lien vers le corpus de blogs. Nous avons choisi de partitionner les messages en créant un index par mois. Cette répartition permet de limiter la taille des index tout en regroupant efficacement les messages : les requêtes portent le plus souvent sur des périodes de temps précises, souvent limitées à quelques mois. Lorsqu une requête est effectuée, l application peut facilement déterminer les index qu elle doit interroger, envoyer la requête à chacun et fusionner les résultats. En pratique, les requêtes les plus fréquentes portent sur les mois les plus récents, et les requêtes qui remontent à plus d un an sont utilisées de manière occasionnelle. Notre architecture nous permet de tenir compte de ces différents types de requêtes et d adapter la configuration de chaque index en conséquence. Les index qui correspondent aux mois les plus récents peuvent être placés sur des machines plus performantes, et on peut les répliquer (c està-dire en créer plusieurs versions identiques sur différentes machines) pour augmenter leur qualité de service. Comme les données sont ajoutées seulement sur l index du mois courant, on peut aussi optimiser la structure et l espace disque des index plus anciens

91 III/4. Construction de la Twitosphère 89 pour améliorer leurs performances. Enfin, les index les plus anciens peuvent être regroupés sur des machines optimisées pour stocker de grands volumes de données plutôt que pour répondre rapidement aux requêtes. Les utilisateurs sont en effet habitués à obtenir une réponse rapide lorsqu ils font une recherche sur des données récentes, mais il apparaît tout à fait normal d avoir un temps de réponse plus élevé si une recherche remonte plusieurs années en arrière. 4.3 Exploitation de la Twitosphère Comme pour le Linkscape, les données de la Twitosphère sont mises à dispostition des collaborateurs et des partenaires de Linkfluence à travers une interface Web qui permet d explorer ce corpus de manière interactive. La méthode de construction du corpus de tweets nous permet de calculer pour chaque requête un taux de pénétration, c est-à-dire la proportion de messages qui correspondent à la requête par rapport à l ensemble des messages captés dans la base pour la même période. Cet indicateur est utile parce qu il permet de normaliser le nombre de résultats de la requête et de rendre comparable le nombre de résultats entre plusieurs journées. En effet, les cycles d activité hebdomadaire entrainent une chute importante du nombre de messages pendant le week-end, avec un pic d activité au milieu de la semaine. Cette base est utilisée régulièrement dans le cadre des études réalisées par Linkfluence. Elle permet de remplir plusieurs fonctions, en plus de la simple recherche : la base contient désormais plus de deux ans de données et permet de reconstituer l évolution sur le long terme de l activité des utilisateurs que nous avons sélectionnés ; la comparaison des taux de pénétration de plusieurs requêtes sur une même période permet d évaluer leur importance relative au fil du temps ; l agrégation des contenus des messages d une requête et la comparaison avec les expressions courantes dans l ensemble du corpus permet d obtenir la liste des termes les plus spécifiques à cette requête, qui peut être présentée sous forme de nuage de mots ; le système permet de déterminer la liste des sites et des articles qui sont les plus cités dans les messages qui répondent à une requête, pour une période donnée. L archive de tweets qui est constituée a été partagée avec des partenaires académiques dans le cadre de plusieurs projets de recherche. Le projet Algopol, pour analyser des conversations en ligne et différents algorithmes de classement et d autorité, le projet Dynamicité, qui a pour objectif de comparer l empreinte numérique de Paris et de Shanghai, et s intéresse aux messages géolocalisés et à ceux qui citent un nom de lieu, et le projet CODDDE,

92 90 Du corpus de blogs au corpus Twitter qui permettra à la fois d expérimenter des algorithmes permettant de suivre l évolution de communautés dans le temps et d effectuer de la détection d évènements sur ces données. Une part importante de cette thèse a été consacrée à l enrichissement et à l analyse des données collectées par la Twitosphère. Le chapitre IV a pour objectif de regrouper les tweets qui parlent d un même sujet, pour reconstituer les tendances et l agenda des intérêts exprimés par différentes communautés. Le chapitre V traite de la caractérisation des auteurs des tweets, soit en fonction de leur type d activité, soit en évaluant leur rôle dans des cascades de diffusion.

93 Chapitre IV Suivi de sujets L activité des utilisateurs sur Twitter est largement rythmée par le partage et la discussion d information en temps réel. Le service propose une liste de trendings topics pour en rendre compte : il s agit des hashtags et des expressions les plus populaires à un moment donné. La notion de popularité est ici interprêtée par Twitter comme une combinaison de la fréquence et de l accélération de l emploi de ces termes. Ces «sujets chauds» peuvent être affinés par zone géographique, mais ils sont proposés au mieux à l échelle de grandes régions et ils restent donc très généraux, en mélangeant souvent des informations liées à l actualité, des émissions de télévision ou des jeux liés à l emploi de hashtags. Une première application des données de la Twitosphère, présentée au chapitre précédent, consiste à agréger les recommandations des utilisateurs pour en dégager des préférences collectives et reconstituer les différents «sujets» qui ont été abordés, ainsi que leur succession dans le temps. Nous nous appuyons pour cela sur les citations de liens hypertexte qui constituent le fondement de notre base, comme nous l avons présenté dans le chapitre précédent. Le décompte du nombre de citations de chaque url permet d observer les articles qui ont été les plus partagés. En pratique, cet indicateur est insuffisant car de nombreux articles traitent d un même sujet au même moment. Nous proposons donc de regrouper les articles en fonction de leur sujet pour resconstituer une image plus cohérente de l agenda médiatique tel qu il est cité et commenté par les utilisateurs de Twitter. Cette approche a pour objectif de simplifier cet agenda, en réduisant les centaines d urls partagées chaque jour à quelques dizaines de sujets importants. Elle permet aussi d obtenir une mesure plus précise de l attention qui est portée à une même question, pour déterminer si certains sujets sont principalement portés par un article à succès ou si au contraire ils ont été cités de manière plus équilibrée par de nombreux sites. Nous proposons une méthode de regroupement des urls par sujets qui 91

94 92 Suivi de sujets sur Twitter s appuie uniquement sur le contenu des tweets qui les contiennent. En effet, l usage des versions raccourcies des urls et la contrainte sur la taille des messages encourage les utilisateurs à décrire brièvement le contenu qu ils citent. Nous considérons donc ces textes comme des «résumés» très succints, et nous nous en servons pour effectuer nos rapprochements. Nous construisons pour cela un graphe biparti des urls et des mots qui leurs sont associés dans les tweets, et nous lui appliquons une méthode de projection qui nous permet d obtenir un graphe pondéré de proximité entre les urls. Nous appliquons alors une méthode de clustering qui nous permet de dégager des sujets à partir des ensembles d urls que nous créons. Nous présentons dans la première section notre méthode de projection pondérée, puis son application aux données que nous avons collectées sur Twitter pour détecter des sujets. En conclusion, nous discutons d autres pistes d application de cette méthode. 1 Calcul de proximité à partir d un graphe biparti Notre approche de regroupement s appuie sur une mesure de spécificité des éléments à regrouper. L idée est que plus un élément est partagé, moins il apporte d information sur l individu qui le cite. Pour qualifier un utilisateur à partir de ses citations, nous cherchons à prendre davantage en compte celles qui ont été peu reprises par d autres utilisateurs. En effet, nous considérons que les liens les plus plébiscités traitent le plus souvent de sujets qui font consensus, et qu ils constituent de moins bons indices de différenciation entre utilisateurs que ceux qui portent sur des sujets plus spécialisés ou avec une moins grande visibilité. Ces derniers sont repris par moins de personnes mais peuvent être de bon indices d une proximité entre les utilisateurs, soit parce que ces derniers partagent les mêmes intérêts, soit parce qu ils lisent les mêmes sources plus confidentielles. Pour vérifier cette hyposthèse, nous modélisons nos données sous forme de graphe biparti et traduisons le problème sous la forme d une projection de ce graphe : nous obtenons un graphe orienté et pondéré dont le poids des arcs est proportionnel à la proximité des sommets qu ils relient. Il s agit à notre connaissance d une nouvelle méthode de projection, qui permet d obtenir un graphe projeté pondéré dont le poids total des liens est égal au double du nombre de sommets, même si leur nombre augmente très fortement par rapport au graphe biparti initial. 1.1 Les graphes biparti Rappelons qu un graphe (orienté ou non) est un couple G = (V, E), où V est l ensemble des sommets et E V V l ensemble des arcs qui les relie. Nous notons N(v) = {u V, (u, v) E} le voisinage de v. Le nombre de sommets dans N(v) est le degré de v : d(v) = N(v).

95 IV/1. Calcul de proximité à partir d un graphe biparti 93 Quand l ensemble V peut être séparé en deux ensembles disjoints (sommets top) et (sommets bottom) tels que tous les liens appartiennent à, on dit que G est un graphe biparti 1, que nous notons G = (,, E). On appelle -projection de G le graphe (, E ) où deux sommets de l ensemble sont liés si ils partagent un voisin commun dans G. E = {(u, v), x : (u, x) E et (v, x) E} La -projection de G se définit de la même manière, en inversant et. La projection d un graphe biparti permet donc de créer un graphe nonorienté. Ce graphe présente des caractéristiques particulières : le graphe projeté est très dense dans la mesure où chaque sommet de degré d dans le graphe biparti va entrainer la création d une clique de taille d dans le graphe projeté ; cette forte densité du graphe projeté entaine une explosion du nombre d arêtes dans le graphe, ce qui peut se révéler rédhibitoire pour l application de certains types d algorithmes ; l opération de projection est irréversible et entraîne la perte d une grande partie de l information contenue dans le graphe d origine. Quel que soit le nombre de voisins que deux sommets partagent dans le graphe biparti, ils ne seront liés que par un seul lien dans le graphe projeté. Pour nuancer l intensité des relations entre deux sommets dans le graphe projeté, on peut choisir d appliquer une pondération sur les arêtes du graphe projeté. 1.2 Pondérer les projections La pondération de la projection d un graphe biparti consiste à appliquer une fonction de poids sur les arêtes projetées à partir des propriétés du graphe d origine. Il existe de nombreuses façons de concevoir cette fonction, qui ont chacune leurs avantages et leurs inconvénients. Nous pouvons ainsi citer la pondération en fonction du nombre de voisins communs, l application d une distance de jacquard, ou encore de la similarité cosinus (cosine similarity). Une étude approfondie de ces différentes méthodes est présentée dans Allali et al. (2013), avec une analyse élaborée de nombreux critères permettant d évaluer la qualité des projections obtenues. Comme la projection d un graphe biparti entraîne un accroissement quadratique du nombre d arêtes à cause de la création d un grand nombre de cliques, de nombreuses méthodes de pondération provoquent elles aussi un accroissement significatif de la somme des poids des arêtes du graphe, ce qui 1. Notations et terminologie sont empruntées à Latapy et al. (2008).

96 94 Suivi de sujets sur Twitter peut entraîner de grands déséquilibres si on essaie de comparer deux arêtes entre elles (voir Evans & Lambiotte (2009), et Latapy et al. (2008)). 1.3 Une méthode de projection stochastique Nous avons choisi de pondérer la -projection de G en définissant une fonction ω sur E de la manière suivante, pour toute paire (u, v) E : ω (u, v) = x N(u) N(v) 1 d(u) 1 d(x). (IV.1) Cette fonction de poids correspond à la probabilité d atteindre v en suivant deux étapes de marche aléatoire à partir du sommet u, sur le graphe G. Si les liens de G sont eux-mêmes pondérés par une fonction ω avec des valeurs réelles, on peut généraliser la fonction de poids sur E de la manière suivante : ω (u, v) = x N(u) N(v) ω(u, x) k(u) ω(x, v) k(x), (IV.2) Où k(u) désigne le degré pondéré du sommet u, que nous définissons comme la somme des poids de ses liens associés : k(u) = ω(u, v) v N(u) Bien entendu, les définitions IV.1 et IV.2 sont équivalentes quand les poids de tous les liens valent 1. Etant donné un réel k [0, 1], on appelle graphe de proximité à seuil k le graphe orienté et pondéré (, E,k ) où 1.4 Discussion E,k = (u, v) E, ω (u, v) k. Cette méthode de projection stochastique présente plusieurs avantages. En premier lieu, elle nous permet de modéliser de manière simple et efficace les notions de généricité et de spécificité : un élément partagé par de nombreuses personnes va en effet avoir un degré important et donc un poids inversement proportionnel. De la même manière, une personne qui partage de nombreux éléments va disperser ses préférences et créer des relations plus faibles qu une personne plus sélective dans ses choix. Le graphe projeté a également des propriétés intéressantes : comme le poids des liens correspond aux probabilités de transition dans une marche aléatoire, la somme des arêtes sortantes de chaque sommet vaut toujours 1, ce qui permet de comparer facilement les arêtes et de les ordonner. Cette

97 IV/2. Application au suivi de sujets sur Twitter 95 propriété apporte une solution au problème de l explosion du nombre d arêtes en s assurant que le poids de celles-ci reste inversement proportionnel à leur nombre. Enfin, la fonction de poids associée au graphe obtenu n est pas symétrique, ce qui permet de mettre en valeur des effets de hiérarchie : si un sommet u de faible degré possède de nombreux voisins en commun avec un sommet v de fort degré, la relation (u, v) peut être considérée comme un lien significatif du point de vue de u et aura ainsi un poids élevé, alors que la relation (v, u) peut être considérée comme plus anecdotique du point de vue de v et recevra un poids plus faible. La pondération des arêtes du graphe projeté permet de simplifier le graphe obtenu en ne retenant que les arêtes dont le poids est le plus élevé, de manière à ne conserver que les informations les plus spécifiques. Dans ce cas, l opération de filtrage produit un graphe orienté. Nous avons en effet choisi de trier les arêtes par poids décroissant, et de les sélectionner jusqu à ce que le graphe (ou une proportion du graphe) devienne connexe. Cette méthode revient à ne retenir que les arêtes dont le poids est supérieur ou égal à un seuil fixé. En pratique, le seuil nécessaire correspond souvent à une faible proportion du nombre total d arêtes du graphe projeté. Il est donc possible d avoir recours à des heuristiques pour ne calculer que les arêtes de poids supérieur lors du calcul de la projection, de manière à accélérer sensiblement le temps de calcul de la projection et le travail sur le graphe projeté. 2 Application au suivi de sujets sur Twitter Nous avons choisi d appliquer cette méthode de projection pour regrouper les urls citées dans le corpus Twitter en fonction des descriptions que les utilisateurs leur associent. La fonction de partage et de recommandation de liens est en effet un des mécanismes essentiels du fonctionnement du service Twitter dont l activité globale produit un flot continu de recommandations, lesquelles portent le plus souvent sur des contenus extérieurs à la plateforme. Cette fonction a par ailleurs de fortes répercussions sur la circulation des internautes sur le web, avec une navigation de plus en plus orientée par ces recommandations. Ainsi, le site Techcrunch déclarait-il avoir reçu en 2010 davantage de trafic via les plateformes Twitter et Facebook que par ses propres flux RSS. Cette section a pour but de vérifier si les textes qui accompagnent les urls citées sur Twitter permettent de décrire les contenus pointés de manière efficace, en dépit de la limitation de la longueur des messages à 140 caractères. La limitation de la taille des messages à 140 caractères oblige les utilisateurs à être très concis lorsqu ils veulent publier un statut. Cette contrainte

98 96 Suivi de sujets sur Twitter est encore plus forte lorsqu il s agit de partager une url : celles-ci sont souvent trop longues et doivent être «raccourcies» par des services dédiés (tels que bit.ly ou tinyurl.com). Ces services remplacent les urls citées par des alias beaucoup plus courts qui sont le plus souvent complètement opaques et ne permettent pas de savoir à priori où l internaute va être redirigé 2. Comme les urls ainsi citées ne permettent pas au lecteur de se faire une idée du contenu vers lequel elles redirigent, les utilisateurs complètent souvent leur lien par une courte description du contenu. Il s agit souvent du titre de l article, surtout lorsque l utilisateur utilise une application qui publie automatiquement les nouveaux liens d un flux RSS, mais de nombreux utilisateurs ajoutent un commentaire plus personnel pour mettre en valeur une idée présentée par l article ou exprimer une appréciation sur le contenu pointé. Nous formulons l hypothèse que les citations de liens sur Twitter permettent d indexer efficacement les contenus web référencés. Les descriptions de chaque utilisateur peuvent être agrégées pour rechercher les sujets les plus en vogue. Dans la mesure où le message d un tweet est condensé et a plus de chance de contenir un grand nombre de termes significatifs qu un billet de blog (en raison de sa taille bien plus élevée), nous avons choisi de considérer les mots des messages comme autant de descripteurs de contenu et de regrouper ensemble les urls qui partagent de nombreux mots en commun. 2.1 Détection de sujets A partir du corpus de tweets décrit dans le chapitre III, nous créons un graphe biparti G = (,, E), où correspond à l ensemble des mots cités dans les tweets, l ensemble des urls citées et E l ensemble des relations (w, u) telles que w apparait dans un tweet qui mentionne l url u. Ce graphe est pondéré par une fonction de poids ω dont la valeur sur chaque paire (w, u) correspond au score de TF.IDF du mot w par rapport à l ensemble des mots uniques associés à l url u. Pour ne pas polluer les résultats avec des mots sans signification particulière, nous filtrons les termes analysés en appliquant une stoplist des mots-outils les plus communs pour le français et l anglais. Nous appliquons la méthode de projection pondérée décrite dans la section 1 pour obtenir la -projection G, qui correspond à un graphe d urls pondéré et dirigé pour lequel le poids d une relation (u, v) indique à quel point l url u est décrite avec les mêmes termes que l url v. Nous regroupons 2. Depuis la réalisation de ce travail, Twitter a mis en place son propre service de racourcissement d urls, t.co, qui est appliqué d office à tous les liens partagés sur la plateforme. Ce service permet également à Twitter d afficher au survol du lien l url de destination dans son interface, mais cette url n est lisible que si l internaute n a pas luimême utilisé un service de racoursissement d url dans son message d orgine (pour traquer le nombre de clics sur ses liens cités par exemple).

99 IV/2. Application au suivi de sujets sur Twitter 97 alors les urls en sujets en fonction de leurs relations dans le graphe G. Pour cela, nous retirons les boucles de G, avant d appliquer un algorithme de type Union-Find et une fonction de spécificité qui prend en argument deux clusters et renvoie une valeur indiquant à quel point ils sont proches l un de l autre. Nous commençons par considérer chaque url comme un cluster à part entière, puis nous fusionnons les clusters entre eux en examinant les liens (u, v) E par ordre de poids décroissant. Si les sommets u et v appartiennent à des clusters différents, nous appliquons la fonction de spécificité sur leurs clusters et nous les fusionnons si celle-ci renvoie un indice de spécificité supérieur ou égal à un seuil défini à priori. Nous avons choisi dans le cadre de ce travail d utiliser comme fonction de spécificité le nombre de mots communs dans les deux clusters, c est à dire la taille de l intersection des voisinages dans le graphe biparti de toutes les urls appartenant aux clusters. Les résultats présentés ici ont été obtenus en appliquant un seuil de 2 : toutes les urls appartenant à un même cluster ont donc été associées à au moins deux mots en commun. 2.2 Validation de la méthode En nous appuyant sur les données issues du corpus Twitter nous avons extrait les tweets contenant au moins un lien vers un site appartenant à notre corpus de blogs et de médias, sur une période de six mois allant du 14 juin 2010 au 9 janvier Nous avons ensuite sélectionné trois catégories de sites, en raison du volume de tweets qui pointent vers elles au cours de la période, et parce qu elles traitent de sujets qui sont fortement influencés par l actualité, ce qui en fait de bons candidats pour effectuer une recherche de tendance et d évènements. Les catégories sélectionnées sont les suivantes : technologues : blogs et sites publiant des articles à propos des nouvelles technologies (ordinateurs, téléphones mobiles, etc.) ; médias natifs : sites de médias qui ne sont présents que sur le web, comme par exemple le site Mediapart ; actu opinion : blogs et sites traitant de l actualité politique et de débats publics. Les deux premières communautés ont reçu un grand nombre de liens au cours de la période, alors que la communauté actu opinion est moins citée, mais permet de tester la pertinence de notre méthode sur des corpus de taille plus réduite. Le tableau IV.1 récapitule les principales caractéristiques observées pour chaque catégorie.

100 98 Suivi de sujets sur Twitter Catégories Sites Urls Tweets Technologues Médias natifs Actu opinion Table IV.1 Informations générales pour chaque catégorie sur l ensemble de la période Méthodologie Chaque url collectée a été traitée par notre chaîne de captation et a donc fait l objet de plusieurs traitements qui permettent de regrouper ensemble tous les tweets qui citent le même permalien. En effet, les urls sont souvent citées à l aide d un raccourcisseur d url et ces services peuvent créer plusieurs versions raccourcies du même lien, le plus souvent dans le but de mesurer le trafic généré par chaque version. Il faut donc résoudre les éventuelles redirections de chaque url. Une deuxième étape consiste à normaliser l url résolue, pour en retirer des paramètres spécifiques qui peuvent avoir été ajoutés pour tracer le nombre de clics et leur provenance. Cette normalisation s appuie sur les heuristiques décrites dans la section 4 du chapitre III. Nous avons choisi de travailler à l échelle de la semaine pour mesurer la dynamique temporelle des citations de sujets. Après quelques essais, nous avons conclu que cette échelle de temps est un bon compromis pour capturer des évènements ponctuels tout en permettant d obtenir un nombre satisfaisant d observations tout au long de la période. Une étude menée sur une période plus courte peut être biaisée par les rythmes de publication hebdomadaires et rendre plus difficile la comparaison des périodes d observation entre elles. En regroupant les tweets par semaine, nous obtenons pour chaque communauté une série de 30 ensembles de tweets qui couvrent la totalité de la période. Nous appliquons notre méthode de détection de sujets sur chaque ensemble ainsi créé. Stabilité des distributions de taille des clusters Nous nous intéressons à la distribution de la taille des clusters de sujets obtenus, que nous définissons comme le nombre d urls qui sont regroupées dans le même cluster. Ces distributions sont présentées sous une forme normalisée en raison des fortes différences de volume entre les catégories dans la table IV.2. En moyenne, 73.9% des clusters de la communauté des technologues contiennent plus d une url et 7.1% en contiennent plus de 10. Sans surprise, ces distributions sont fortement hétérogènes : la majorité des urls appartiennent à des clusters de taille 1 ou 2, tandis que quelques unes appartiennent à de grands clusters pouvant contenir des dizaines d urls.

101 IV/2. Application au suivi de sujets sur Twitter 99 > 1 > 2 > 5 > 10 Catégorie moy. s.d. moy. s.d. moy. s.d. moy. s.d. Technologues 73.9% 1.7% 44% 2.4% 17.9% 1.8% 7.1% 1.4% Médias natifs 66.3% 2.4% 36.7% 3.3% 13% 2.2% 4.6% 1.4% Actu opinion 57.6% 2.2% 26.5% 2.1% 9.7% 2% 3.7% 1.8% Table IV.2 Valeur moyenne (moy.) et écart-type (s.d.) de la distribution cumulative de la taille des clusters, par semaine Nous constatons que la proportion moyenne de clusters qui ne contiennent qu une url varie entre 26.1% (pour «technologues») et 42.4% (pour «actu opinion»), en fonction de la communauté observée. La faible valeur des écarts-types de ces moyennes montre que notre méthode produit des distributions de taille de clusters stables tout au long de la période. Pour chaque catégorie, les distributions de taille de clusters observées sont donc comparables d une semaine à l autre. Cohérence lexicale des clusters Comme notre objectif est de regrouper des urls qui traitent de mêmes sujets, il nous faut vérifier que notre méthode produit des clusters cohérents. Nous supposons pour cela que les pages traitant de sujets similaires devraient partager une part significative de leur vocabulaire, et que les clusters obtenus devraient donc regrouper des pages similaires d un point de vue lexical. Nous avons pour cela téléchargé l ensemble des contenus des pages référencées par les tweets de nos corpus lors de la dernière semaine d observation. Le contenu de chaque page a ensuite été extrait à l aide d un algorithme de détection de contenu Kohlschütter et al. (2010). Nous comparons ensuite les textes extraits en calculant la similarité cosinus moyenne entre tous les textes cités par les tweets d un même cluster. L étape d extraction de contenu est importante car elle permet de réduire autant que possible la part de contenu générique (essentiellement lié à des éléments de navigation sur le site) qui pourrait entraîner un augmentation artificielle de la similarité entre les pages. Lorsque l extraction de contenu échoue ou n arrive pas à trouver suffisamment de contenu textuel (dans le cas d images ou de vidéos par exemple), les liens concernés sont ignorés dans le cadre de cette mesure. Nous comparons les moyennes obtenues pour chaque cluster avec le score similarité moyenne calculé en comparant l ensemble des textes, indépendamment du cluster auquel ils appartiennent. Les résultats, présentés dans la table IV.3, confirment notre hypothèse : la similarité moyenne des contenus référencés au sein de nos clusters est significativement plus élevée que le score de similarité moyenne obtenu sur l ensemble des textes. Nous constatons par ailleurs que le score de similarité

102 100 Suivi de sujets sur Twitter Catégorie Technologues 77.7% 64.5% 35.4% 19.5% Médias Natifs 77.01% 64.7% 38.8% 25.4% Actu opinion 86.3% 63.3% 25.17% 18.4% Table IV.3 Pourcentage des clusters de chaque catégorie dont le score de similarité est supérieur ou égal à N fois le score moyen calculé sur l ensemble des clusters, du 3 au 9 janvier % des clusters de la catégorie technologues ont un score de similarité deux fois supérieur au score moyen calculé sur l ensemble des clusters. ainsi mesuré croît avec la taille des clusters, les clusters de taille 2 obtenant les résultats les plus faibles. L évaluation du contenu lexical des articles ne suffit pas à affirmer avec certitude que les articles regroupés abordent réellement les mêmes sujets, mais une exploration qualitative du contenu des clusters (développée dans la section 2.4) semble confirmer que la méthode fonctionne correctement, en particulier sur les clusters qui reçoivent le plus de citations. Notre méthode, bien que non supervisée, nous permet donc d obtenir des regroupements d urls qui semblent pertinents du point de vue de leur contenu, tout en étant comparables d une semaine sur l autre. 2.3 Volumes de citations et sujets populaires Afin d évaluer si les «sujets» délimités par nos clusters peuvent apporter des informations sur l activité des utilisateurs, nous calculons pour chaque cluster le nombre de tweets qui l ont cité, ainsi que le nombre de retweets dont il a fait l objet. Nous calculons les mêmes paramètres pour chaque url. Notre objectif est de vérifier si les clusters qui reçoivent le plus d attention sont composés d urls très populaires, ou bien s il existe des clusters composés de nombreuses urls ayant chacune reçu un nombre de tweets plus modeste. Nous constatons que la distribution du nombre de tweets reçus pour chaque cluster est très hétérogène et qu elle est stable si on la compare sur l ensemble des semaines de notre période. La table IV.4 montre qu en moyenne, les 10% de clusters les plus cités pour les technologues représentent 31.8% de l ensemble des messages, avec un faible écart-type. Ce résultat se vérifie pour chaque communauté étudiée : dans tous les cas, une minorité de sujets mobilise une part importante de l attention portée à chaque communauté. Nous voulons maintenant mesurer dans quelle mesure les clusters et les urls sont corrélés si on considère le nombre de tweets qu ils ont reçus. Nous

103 IV/2. Application au suivi de sujets sur Twitter 101 Catégorie Mesure Top 10% Top 50% Top 75% Technologues moy. 31.8% 82.2% 94.1% s.d. 2.4% 1.4% 0.8% Médias natifs moy. 34.1% 79.3% 90% s.d. 3.6% 1.6% 1.7% Actu opinion moy. 31.7% 76.5% 90.4% s.d. 4.3% 2.1% 2% Table IV.4 Moyenne (moy.) et écart type (s.d.) de la distribution cumulative du nombre de tweets par cluster, pour chaque semaine de l ensemble de la période calculons pour cela la corrélation de rangs de Spearman, qui permet de comparer le rang des clusters à celui des urls qui les composent. Les clusters obtenus pour la communauté des technologues lors de la dernière semaine d observation ont un coefficient de corrélation de 0.61 avec les urls qui les composent. Ce score élevé est essentiellement dû au grand nombre de clusters qui ont reçu un faible nombre de tweets et sont également composés d urls peu citées. Les deux classements sont donc semblables si on considère les urls les moins citées. Nous vérifions cela en enlevant progressivement les clusters qui ont reçus le moins de messages et en recalculant le coefficint de corrélation avec les clusters qui restent. La figure IV.1 montre que le coefficient décroît fortement : il tombe à 0.19 si on ne conserve que la moitié des clusters les plus cités, et descend jusqu à 0.12 si on ne conserve que les 25% de clusters les plus cités. Les clusters les plus cités contiennent donc également des urls relativement peu citées. Le coefficient de corrélation augmente légèrement lorsqu on ne conserve que moins de 10% des clusters les plus cités. Les urls les plus citées ne peuvent en effet pas appartenir à des clusters ayant reçu moins de tweets qu elles, et sont donc nécessairement regroupées dans les clusters les plus cités. Nous obtenons des résultats similaires en répétant ces mesures sur l ensemble des semaines d observation et en les élargissant aux autres communautés. La mesure des écarts-types des coefficients montre que ces résultats varient peu au cours de la période, comme le montre la table IV.5. Ces faibles corrélations ne sont pas surprenantes dans la mesure où notre méthode peut regrouper ensemble des urls très citées et des urls très peu citées. Afin de vérifier si certains clusters très cités sont réellement composés de nombreuses urls peu citées, nous définissons pour chaque cluster une top url, qui est l url qui a reçu le plus de tweets. Nous répétons alors les mesures de corrélation décrites précédement, en comparant cette fois le rang des clusters et celui des top urls.

104 102 Suivi de sujets sur Twitter Spearman s rank correlation % 75 % 50 % % of clusters 25 % 0 % Figure IV.1 Évolution de la corrélation de rangs de Spearman entre les urls et les clusters des technologues, en filtrant progressivement les clusters par nombre de tweets croissant (du 3 au 9 janvier 2011) Les résultats de ces mesures sont présentés dans la table IV.6. Les coefficients sont globalement plus élevés, mais on observe toujours la même baisse du coefficient de corrélation lorsqu on ne conserve que les clusters les plus élevés, et les résultats sont toujours stables tout au long de la période. L augmentation de la valeur des écarts-types pour les clusters les plus cités montre que même si une grande partie de ces clusters contiennent au moins une url très citée, certains clusters ne contiennent que des urls moins citées. Notre méthode permet de détecter des sujets qui ne sont pas traités par des acteurs très suivis, mais qui intéressent suffisamment leur communauté pour réunir une attention importante grâce au cumul de plusieurs contributions plus modestes. 2.4 Discussion Pour mieux évaluer la pertinence et l intérêt de notre méthode, nous complétons les approches quantitatives présentées dans les sections précédentes par une exploration qualitative des sujets que nous avons détectés. Le tableau IV.7 illustre cette démarche en présentant les 26 clusters qui ont reçu le plus de citations pour la communauté médias natifs lors de la dernière semaine d observation.

105 IV/2. Application au suivi de sujets sur Twitter 103 Catégorie Mesure Tous Top 50% Top 25% Top 10% Technologues moy s.d Médias natifs moy s.d Actu opinion moy s.d Table IV.5 Moyenne (moy.) et écart-type (s.d.) de la corrélation de rangs de Spearman entre le nombre de tweets reçus par les clusters et les urls, sur l ensemble de la période de 6 mois Catégorie Mesure Tous Top 50% Top 25% Technologues moy s.d Médias natifs moy s.d Actu opinion moy s.d Table IV.6 Moyenne (moy.) et écart-type (s.d.) de la corrélation de rangs de Spearman entre le classement de l url la plus citée et celui de l ensemble de son cluster Nous indiquons pour chaque cluster son rang (que nous utiliserons comme identifiant), le nombre d urls qu il contient, le nombre total de tweets qui le citent. Les retweets sont un sous-ensemble du nombre de tweets reçus par le cluster. Les «mots spécifiques» correspondent aux termes qui sont partagés par tous les tweets associés au cluster, et donc aux critères de regroupement utilisés par notre méthode. Ces termes ne permettent pas toujours de comprendre de quoi traitent les clusters, nous avons donc consulté les pages qu ils regroupent et ajouté une courte description pour les rendre plus explicites. Un premier examen de la liste permet de constater que les clusters sont dans l ensemble facilement assimilables à un sujet. Seul le cluster 10 est manifestement bruité : les mots qui le regroupent correspondent à une formule courante et ne sont pas associés à un sujet particulier. Les clusters 6 et 20 regroupent quant à eux tous les articles d un même site : le journal du net pour le cluster 6, et Agoravox pour le cluster 20. Dans les deux cas, le nom du site est associé à chaque publication de lien sous forme de hashtag. Il s agit là de la principale source de bruit dans nos regroupements. Il serait cependant possible de corriger ce problème en ajoutant une contrainte lors de l agrégation des clusters pour empêcher de regrouper des urls appartenant

106 104 Suivi de sujets sur Twitter Rang Taille Tweets Retweets Mots spécifiques Description lepost guerre 4chan lol campagne des utilisateurs de 4chan contre la France wtf femme faits divers et anecdotes liés à la sexualité noir jeudi l association jeudi noir squatte un bâtiment en face du palais de l Élysée michael youn polémique engendrée par le cambriolage du comique Michael Young optunisia anonymous répression des manifestations en Tunisie business net journal articles du journal du net, regroupés par leur hashtag commun facebook marchands articles présentant des solutions de e-commerce sur Facebook rolex seguela controverse sur la fameuse déclaration de Jacques Séguéla pen marine actualité concernant la femme politique Marine Le Pen bcp semble pouvoir cluster de bruit, regroupant des tweets employant une même expression reseau social introduction en bourse du site LinkedIn ralph lauren collection de voitures du styliste Ralph Lauren ali tunisie prise de position de la France à propos du président tunisien Ben Ali defense secret actualités concernant l armée française continuer fonds bakchich faillite du site de média natif Bakchich morts oiseaux faits divers : des nuées d oiseaux meurent en plein vol hessel stephane déclarations controversées de Stéphane Hessel view street présentation d Urban Dive, équivalent de Google Street View par les pages jaunes morts thala tunisie morts violentes dans le cadre des manifestations en Tunisie media agoravox articles du site agoravox, regroupés par leur hashtag commun dollars 16 campagne de collecte de fonds pour le site Wikipedia windows microsoft actualité concernant Microsoft tour tchernobyl essor du tourisme à Tchernobyl hortefeux brice actualités concernant le ministre de l Intérieur Brice Hortefeux megaupload hadopi les français utilisent de plus en plus megaupload en réaction à la loi Hadopi heures débat sur la suppression des 35 heures Table IV.7 Liste des 26 clusters les plus cités pour la communauté médias natifs, du 3 au 9 janvier 2011

107 IV/3. Conclusion 105 toutes au même site. Les 23 clusters restants sont intéressants dans la mesure où ils illustrent bien la variété des sujets que notre méthode permet de détecter. Une première catégorie de clusters concerne des évènements ponctuels liés à l actualité. C est le cas du cluster 1, qui traite de la colère des utilisateurs de 4chan parce que le e message posté sur le forum représentait un drapeau français, ou des clusters 5, 13 et 19, qui traitent des manifestations en Tunisie (et de leur répression sanglante) qui ont marqué le début de ce qu on a par la suite appelé le «printemps arabe». D autres clusters traitent plutôt de sujets qui sont régulièrement abordés au sein de la communauté, ou qui s étendent sur des périodes plus longues. C est le cas par exemple du cluster 7, qui regroupe des articles décrivant comment les acteurs du e-commerce s approprient Facebook, et du cluster 26, qui est consacré au débat sur les 35 heures. Les articles cités sont souvent plus longs et peuvent prendre la forme de synthèses ou de tribunes d expression. Ces clusters sont souvent plus stables et peuvent rester parmi les sujets les plus cités plusieurs semaines d affilée. L analyse résultats obtenus pour les autres communautés permet de retrouver ces différents types de clusters. Les sujets abordés varient bien entendu en fonction des préoccupations spécifiques de chaque groupe : les sujets définis par actu opinion concernent essentiellement l actualité politique, tandis que l on trouve parmi les sujets des technologues des clusters qui regroupent nettement les articles liés à la sortie de chaque nouveau produit. Certains clusters restent cependant très généraux, comme par exemple celui qui regroupe toutes les nouvelles liées à l App Store d Apple. Nous avons enfin testé notre méthode sur d autres communautés issues de notre corpus, ce qui nous a permis de découvrir d autres types de sujets, dans des contextes plus spécifiques. Par exemple, les clusters définis par la communauté cuisine ne sont pas liés à des évènements ponctuels, mais regroupent plutôt des recettes en fonction du rythme des saisons ou d évènements récurrents comme les vacances ou les fêtes. L observation détaillée du contenu des clusters qui reçoivent le plus de citations nous permet de confirmer que Twitter constitue un outil de référencement efficace du web, malgré (ou peut-être grâce à) la limitation des 140 caractères. Au-delà de la confirmation de notre hypothèse de départ, notre méthode produit des clusters de bonne qualité, qui permettent de détecter à la fois des évènements ponctuels et des sujets de fond liés à chaque communauté. 3 Conclusion Notre méthode permet de détecter et de hiérarchiser les sujets des articles les plus cités dans notre Twitosphère. Elle pourrait être mise en oeuvre pour

108 106 Suivi de sujets sur Twitter recommander des liens ou proposer des tendances sur un ensemble d utilisateurs. Par ailleurs, elle reste efficace malgré l application de traitements linguistiques et de critères de regroupement très simples. Ces deux aspects pourraient être enrichis : d un point de vue d analyse du texte, on pourrait ajouter une étape d analyse grammaticale, ou bien rechercher des n-grammes pour mieux déterminer les termes à regrouper. Du point de vue du regroupement des urls en sujets, on pourrait utiliser des algorithmes de clustering utilisés de manière classique sur des graphes réels, comme celui de Newman (2004) ou bien la méthode de Louvain (Blondel et al., 2008). Nous avons utilisé la méthode de Louvain sur le graphe de proximité d urls de la catégorie «cuisine», ce qui nous a permis de regrouper les recettes traditionnelles, celles qui correspondaient à la nouvelle cuisine, ainsi que des groupes liés à la cuisine végétarienne ou bien à des régimes particuliers. Nous avons aussi observé l évolution de ces clusters sur plusieurs semaines, en regroupant les clusters cités par les mêmes utilisateurs d une semaine sur l autre. Nous avons pu constater que certains sujets restent présents pendant plusieurs semaines, tandis que d autres ont une durée de vie très éphémère. Cependant, l application systématique de notre méthode à l échelle de la Twitosphère demanderait d optimiser l étape de projection du graphe biparti, qui restait très coûteuse lorsque nous l avons mise au point. Ce problème pourrait être résolu aujourd hui en utilisant des technologies de stockage et de traitement des données plus adaptées : l infrastructure de stockage et d indexation de la base a été entièrement modifiée depuis janvier 2011, avec en particulier un remplacement de la base MongoDB par Elasticsearch. Le calcul de la projection pourrait quant à lui être distribué sur un cluster de type Hadoop. Enfin, notre méthode de projection pourrait être appliquée à l analyse d autres phénomènes. Nous l avons par exemple utilisée pour cartographier les utilisateurs de Twitter qui citaient des sites politiques, en construisant un graphe biparti des utilisateurs et des urls citées, puis en le projetant pour obtenir le graphe des relations entre utilisateurs. Là encore, nous avons simplifié le graphe projeté en enlevant les arêtes de faible poids tant que la composante connexe principale n était pas divisée. Nous avons ensuite appliqué la méthode de Louvain pour détecter des communautés, ce qui a permis de faire ressortir les différents groupes politiques présents sur la plateforme. Le réseau ainsi obtenu a été présenté au Personal Democracy Forum en octobre Guilhem Fouetillou, Using twitter to map political influence, PDF Europe, Barcelone, 4 octobre

109 Chapitre V Activité des utilisateurs de Twitter Les utilisateurs de Twitter ont une activité très diversifiée : certains utilisent le service pour échanger et débattre, d autres se servent de sa capacité d agrégation et de recommandation pour suivre l actualité d un sujet, à la manière d une revue de presse. Certains publient plusieurs dizaines de messages par jour quand d autres se contentent de suivre les messages publiés sans rien partager en retour. Ces différentes manières d utiliser le service se traduisent par la variation de nombreux indicateurs que l on peut utiliser pour mesurer l activité d un utilisateur. Il peut s agir par exemple du nombre de messages publiés, d amis ou de followers, de la proportion de retweets ou de liens cités, ou encore de la fréquence de publication. Nous nous appuyons sur les données de la Twitosphère, présentée au chapitre III pour étudier les formes que peut prendre l activité des utilisateurs et pour les caractériser. Notre objectif est d établir une typologie des utilisateurs et de leurs usages, qui pourrait servir ensuite de cadre d analyse pour mieux comprendre les mécanismes d échange et de circulation de l information. La notion d influence joue en effet un rôle essentiel sur Twitter. Elle suppose que certains utilisateurs diffusent des informations de manière plus efficace que d autres, en raison de leur «autorité», qui est souvent considérée comme proportionnelle au nombre de followers. Nous proposons dans un premier temps une typologie simple des comportements des utilisateurs, qui s appuie sur des méthodes de fouille de données. Nous nous intéressons ensuite à la manière dont les informations sont partagées et diffusées sur le réseau en proposant une méthode de reconstitution de cascades de citations d urls, à partir d un modèle simple de propagation de retweets. 107

110 108 Activité des utilisateurs 1 Typologie des utilisateurs en fonction de leur activité Le travail entrepris dans la section 2 du chapitre III a permis de définir une typologie des communautés citées dans notre corpus Twitter, mais cette analyse se limite aux messages qui citent le Linkscape et ne prend donc pas en compte une grande partie de l activité des utilisateurs que nous avons suivis. Les messages qui citent le Linkscape représentent seulement 12.5% de l ensemble des messages de la Twitosphère. Notre objectif est de caractériser les utilisateurs à partir de la mesure et de l observation de leur activité. Nous utilisons des méthodes statistiques pour déterminer quels usages sont le plus souvent associés et pour déterminer des «profils types» d utilisation de la plateforme. 1.1 Mesure de l activité et de l audience Nous avons sélectionné un ensemble de six variables pour décrire l activité des utilisateurs et construire notre classification. Elles sont toutes liées à la publication de messages, et donc facilement mesurables pour une période de temps donnée. Cela nous permet d étudier l évolution de ces indicateurs et de vérifier la stabilité dans le temps des catégories que nous construisons. Les quatre premières variables sont déduites des publications de chaque utilisateur et sont donc faciles à collecter à partir de sa timeline. Le nombre de tweets correspond au nombre de messages publiés par chaque utilisateur. Il permet d évaluer l activité de l utilisateur dans son ensemble, mais cette information doit être précisée pour tenir compte de la diversité des messages. Le nombre d urls correspond au nombre de messages qui contiennent un permalien vers une ressource extérieure à Twitter. Il peut s agir d un lien vers un article (qu il appartienne au Linkscape ou non), mais aussi d un lien vers un document, une photo ou une vidéo. Le nombre de retweets (noté rt) permet de mesurer à quel point chaque utilisateur relaye des informations issues d autres personnes. Enfin, le nombre de mentions (noté at) correspond au nombre de messages qui contiennent au moins une mention et qui ne sont pas des retweets. En pratique, les retweets sont essentiellement utilisés pour partager de l information, tandis que les mentions sont plutôt utilisées dans le cadre de discussions entre utilisateurs. Cette distinction entre ces deux mécanismes de citation a été soulignée à plusieurs reprises dans la littérature consacrée à Twitter (e.g. Cha et al. (2010) et Naaman et al. (2010)). Nous avons ajouté deux autres variables qui sont liées au nombre de citations de chaque utilisateur par d autres membres de Twitter. Le nombre de retweets reçus (noté is_rt) correspond au nombre de fois où un utilisateur

111 V/1. Typologie des utilisateurs en fonction de leur activité 109 a été retweeté 1. Il permet de mesurer l intérêt qui est porté aux messages publiés par un utilisateur et constitue donc un bon indicateur de son «autorité». Le nombre de mentions reçues (noté is_at) constitue plutôt un indice de la «popularité» de l utilisateur, à travers sa capacité à susciter des conversations ou à être interpelé. Ces deux informations sont plus difficiles à collecter que les quatre premières, car l API de Twitter ne permet pas de les obtenir de manière directe. Ce type de mesure doit donc s appuyer sur un système de captation de nombreux utilisateurs, nous utilisons donc les données de la Twitosphère pour estimer l ensemble de ces variables. 1.2 Corrélations entre les indicateurs Les variables que nous avons définies ne sont pas utilisées de manière uniforme par les utilisateurs. Le tableau V.1 présente leurs corrélations croisées 2, et permet de mesurer les déséquilibres et les affinités entre leurs différents usages. Il a été calculé en agrégeant les informations de l ensemble des utilisateurs que nous avons sélectionnés au cours du mois de décembre Nous disposons donc de l ensemble des messages que ces utilisateurs ont publié sur cette période. tweets url rt is_rt at url 0.82 rt is_rt at is_at Table V.1 Corrélations entre les variables descriptives de l activité des utilisateurs, pour le mois de décembre 2011 Sans suprise, le nombre de tweets est fortement corrélé aux autres variables, puisque le nombre total de messages publiés englobe le nombre d urls partagées, de retweets et de mentions. On remarque cependant une plus faible corrélation (0.22) avec le nombre de retweets reçus : le succès des messages n est donc pas proportionnel à la quantité publiée. Nous observons aussi une assez forte corrélation (0.54) entre le nombre d urls citées et le nombre de retweets : une part importante des retweets portent sur des messages qui contiennent un lien vers une ressource exté- 1. Nous utilisons les termes «reçu» ou «émis» pour indiquer le sens des interactions que nous décrivons, telles qu elles pourraient être modélisées par des liens orientés. 2. Nous utilisons ici la corrélation de Pearson, qui est la plus couramment utilisée et qui tient compte de la valeur des variables, contrairement à la formule de Spearman qui ne tient compte que de leur rang.

112 110 Activité des utilisateurs rieure. En revanche, le nombre d urls présentes dans un tweet est presque indépendant (0.15) du nombre de retweets reçus, seule une minorité des contenus partagés rencontre un réel succès. Le nombre de mentions envoyées et reçues sont en revanche fortement corrélés (0.83). Cette réciprocité s explique par la fonction de conversation qui leur est associée : les utilisateurs répondent souvent aux messages qui leur sont adressés. Au contraire, le nombre de retweets émis et le nombre de retweets reçus sont presque indépendants, avec un taux de corrélation de Le retweet fonctionne en effet comme une forme de vote ou d approbation, il est un indice de la popularité des messages et il est le plus souvent consacré à des messages originaux. Le fonctionnement du bouton de retweet peut également accentuer cette tendance, dans la mesure où la plupart des retweets sont automatiquement attribués au message original. Nous développerons ce biais potentiel dans la section 2 de ce chapitre. La pratique de la conversation semble être un moyen efficace pour attirer l attention d autres utilisateurs : nous observons un taux de corrélation moyen (0.41) entre le nombre de mentions reçues et le nombre de retweets reçus. Enfin, les faibles corrélations entre le nombre d urls et de mentions envoyées et reçues (respectivement 0.21 et 0.11) confirment une forme de spécialisation des usages sur Twitter, avec d un côté des utilisateurs qui recommandent des contenus et de l autre ceux qui engagent des conversations. Cette spécialisation est largement accentuée si on ne conserve que 10% des utilisateurs qui ont publié le plus de messages : le nombre d urls et de mentions envoyées et reçues sont alors négativement corrélées (respectivement 0.46 et 0.34). 1.3 Regroupement et typologie des utilisateurs Ces observations concordent avec la distinction observée de manière empirique par Naaman et al. (2010) entre les informers, et les meformers. Cette distinction en deux catégories reste cependant trop générale pour rendre compte de la variété des profils d activité que nous avons pu observer en pratique. Nous avons donc appliqué une méthode de clustering pour identifier des groupes d utilisateurs qui ont une activité similaire sur Twitter. Nous utilisons pour cela la méthode des k-moyennes (ou k-means), qui partitionne un ensemble d observations en k clusters dans lesquels chaque observation appartient au cluster dont la moyenne est la plus proche. Le principe est de choisir k positions moyennes, d associer chaque observation à la position moyenne la plus proche en minimisant les carrés des écarts à la position moyenne, puis de recalculer les positions moyennes une fois que toutes les observations ont été associées à un cluster. L algorithme converge ainsi vers un minimum local, qui n est pas nécessairement optimal. Pour améliorer

113 V/1. Typologie des utilisateurs en fonction de leur activité 111 les résultats, on peut répéter cette méthode en partant de plusieurs tirages aléatoires des positions de départ, et conserver la partition pour laquelle on obtient les plus faibles sommes de carrés des écarts par rapport aux positions moyennes finales. Nous sélectionnons pour cela trois variables qui décrivent l activité de chaque utilisateur et sont faiblement corrélées entre elles : le nombre d urls citées, le nombre de mentions et le nombre de retweets. Nous n utilisons ici que les variables que l on peut mesurer directement à partir de la liste des messages d un utilisateur, ce qui nous permet de répéter notre partition avec des données qui sont faciles à collecter. Comme la distribution de ces variables est fortement hétérogène, nous avons calculé le logarithme de chaque valeur pour linéariser leurs distributions et l adapter au fonctionnement de l algorithme des k-moyennes. Nous avons effectué plusieurs essais en faisant varier le nombre de partitions, et nous avons retenu un partitionnement en 5 clusters. Ce nombre a été choisi de manière empirique car il nous permet de rendre compte de la variété de comportements des utilisateurs. Au delà de 5 groupes on retrouve les mêmes profils de catégories, avec des séparations qui correspondent surtout à une distinction dans le nombre total de tweets. En dessous de 5, certains profils intéressants sont indissociés ce qui appauvrit notre typologie. Nous avons également réalisé des essais en ajoutant le nombre de retweets reçus et le nombre de mentions reçues, et nous avons obtenu des groupes aux caractéristiques similaires. Comme ces indicateurs sont plus difficiles à mesurer car ils nécessitent un dispositif de captation beaucoup plus large que dans le cas des informations liées à la seule activité des utilisateurs, nous ne les avons pas retenus parmi nos critères de clustering. Le tableau V.2 présente les groupes que nous avons obtenus, ainsi que les statistiques liées à l activité de leurs utilisateurs et les retours des autres utilisateurs (à travers le nombre de retweets reçus et le nombre de mentions reçues). Pour chaque indicateur, nous indiquons les valeurs du premier et du dernier décile, ainsi que la valeur médiane, afin de proposer un encadrement sommaire de la distribution de ses valeurs. Si on prend l exemple du groupe 1, le tableau indique que 90% des utilisateurs ont publié au moins 104 tweets, 50% en ont publié 341 ou plus, et seulement 10% d entre eux dépassent les 695 tweets. Nous avons aussi ajouté dans le tableau des indicateurs qui ne sont pas pris en compte dans le calcul des groupes : il s agit du nombre de tweets publiés, mais aussi du nombre de retweets reçus et du du nombre de mentions reçues. Ces deux derniers indicateurs nous permettent de mesurer l audience que reçoivent les utilisateurs et d évaluer ainsi l efficacité des différents types de comportements. En comparant les indicateurs pour chaque groupe et en vérifiant de manière empirique les comptes Twitter qui sont associés à chacun, nous obtenons

114 112 Activité des utilisateurs groupe quantile tweets url rt is_rt at is_at 10% mediane % % mediane % % mediane % % mediane % % mediane % Table V.2 Description des 5 groupes obtenus par la méthode des k- moyennes la classification suitante : Le groupe 1 (les «stars») est composé d utilisateurs qui ont une activité très soutenue, avec plus de 100 tweets pour la plupart d entre eux. Ils ont une activité de discussion soutenue, avec souvent plus d une centaine de mentions envoyées ou reçues, et c est le groupe qui reçoit le plus grand nombre de retweets. Lorsque nous examinons le contenu de ce groupe de manière empirique, nous trouvons les utilisateurs les plus populaires de notre corpus Twitter, ainsi que les comptes des principaux médias et institutions. Le groupe 2 (les «experts») contient des utilisateurs qui partagent des caractéristiques similaires à celles des «stars», mais qui ont une activité plus faible, inférieure à la centaine de tweets pour la plupart. Ils s investissent dans des conversations et beaucoup reçoivent des retweets. Un examen empirique suggère qu il s agit d utilisateurs qui ont une activité plus irrégulière que ceux du premier groupe, mais qui cherchent souvent à commenter les sujets qu ils abordent et à en débattre. Le groupe 3 (les «veilleurs») regroupe des utilisateurs qui font essentiellement de la recommandation de contenus. Ils publient un nombre de tweets comparable aux «experts», mais l essentiel de leur activité est consacrée à la recommandation de liens, à travers des citations d urls qui prennent souvent la forme de retweets. Contrairement aux

115 V/1. Typologie des utilisateurs en fonction de leur activité 113 deux premiers groupes, ces utilisateurs ont une activité de conversation très faible et reçoivent peu de retweets. Les membres de ce groupe semblent utiliser Twitter comme un outil de veille et se contentent le plus souvent de relayer les informations qui les intéressent, sans chercher à créer des messages originaux. Le groupe 4 (les «robots») regroupe des utilisateurs très actifs, dont presque tous les messages contiennent une url. Ils ne font pas de retweets et ne participent presque jamais à des discussions. Il n est donc pas surprenant de constater qu ils sont très rarement retweetés. Il s agit essentiellement de comptes à vocation promotionnelle ou qui sont configurés pour envoyer des messages automatiquement, soit en publiant automatiquement les retombées d un ou de plusieurs sites (à partir par exemple de flux RSS), soit en étant associés à des capteurs qui leur font répondre automatiquement à certains messages ou évènements. Le groupe 5 (les inactifs) contient les utilisateurs qui ont une très faible activité. Cette classification nous permet d affiner le modèle des informers et des meformers de Naaman et al. (2010). Les groupes des «stars» et des «experts» (1 et 2) se démarquent des autres en raison de leur activité de conversation et du nombre de retweets qu ils reçoivent. Cela nuance l oppostion entre la pratique de la recommandation et celle de la conversation, puisque les utilisateurs qui discutent le plus sont souvent très cités. Ce résultat peut être lié à un biais dans la méthode de sélection des utilisateurs de la Twitosphère, qui privilégie le suivi d individus qui citent des liens vers notre corpus de blogs et de médias, au détriment de ceux qui se consacrent exclusivement à de la conversation. Les «experts» et les «veilleurs» (groupes 2 et 3) publient un nombre de tweets comparable, mais se démarquent fortement lorsqu on compare le type des messages publiés, et le nombre de fois où ils sont retweetés. Il ne suffit donc pas de sélectionner des contenus, comme le font les «veilleurs», pour être cité : il faut également produire des messages originaux et s investir dans des conversations. La production automatique de message n est cependant pas un gage de succès, si on en juge par le nombre de retweets obtenus par les «robots» (groupe 4). 1.4 Perspectives Cette méthode de classification nous permet de distinguer des groupes d utilisateurs qui reçoivent un nombre significatif de retweets, et d autres qui n en reçoivent presque aucun, sans avoir à collecter d information sur ce paramètre. Il n est bien sûr pas possible de déterminer de manière précise le nombre de retweets qu un utilisateur va recevoir à partir de ces critères,

116 114 Activité des utilisateurs mais on pourrait utiliser des méthodes de machine learning pour entraîner un classifieur qui associerait de nouveaux utilisateurs aux groupes que nous avons définis et évaluerait ainsi leur audience potentielle. Notre typologie pourrait être utilisée dans le cadre d outils de veille pour affiner l analyse des utilisateurs qui interagissent avec une marque, un produit ou une thématique. L analyse des prises de position des «stars» et des «experts» serait à privilégier en raison de leur plus large portée, et ces utilisateurs pourraient être contactés dans le cadre d opérations de communication. Les messages des «robots» pourraient être filtrés pour ne conserver que les tweets qui correspondent à des recommandations spécifiques. Nous avons obtenu les mêmes groupes en appliquant cette méthode de classification sur un intervalle d une semaine et en la répétant semaine après semaine sur plusieurs mois. Il serait donc possible de suivre l évolution des utilisateurs dans cette classification, en s inspirant du travail effectué par Cardon et al. (2011b) sur les trajectoires suivies par les blogs dans les communautés. Ces observations pourraient être enrichies en prenant en compte le contenu des messages publiés, ou même celui des pages partagées via les urls citées. La méthode des k-moyennes nous permet d obtenir une typologie intéressante, mais la typologie pourrait être perfectionnée en utilisant des méthodes de clustering plus élaborées, qui lui permettraient d être moins sensible aux effets de seuils liés au nombre de messages publiés. 2 Reconstitution de cascades de diffusion Après avoir proposé une méthode pour caractériser l activité des utilisateurs sur Twitter, nous nous intéressons plus particulièrement aux pratiques de citation des urls et à la manière dont celles-ci se diffusent. Nous avons choisi pour cela de nous intéresser au retweet, qui est probablement le mécanisme phare sur Twitter : il constitue une marque d intérêt et de reconnaissance pour celui qui est relayé, et c est un moyen pour celui qui relaye de partager une information avec son cercle de followers. Alors que Twitter a été pensé à l origine pour être un outil de discussion au sein de cercles de proches, il est devenu un des principaux acteurs de la diffusion d information en temps réel. Le mécanisme du retweet joue un rôle important dans cette évolution : il a d abord été introduit de manière informelle par les utilisateurs et adopté ensuite en tant que convention d écriture. Devenu un des usages incontournables de la plateforme, il a été largement étudié en raison de sa capacité à tracer la diffusion de l information. L apparition et l adoption de cette convention ont été étudiées par Kooti et al. (2012), qui montrent qu elle a pour origine un ensemble d early adopters de Twitter, qui formaient un groupe soudé et très actif, et que la forte densité du réseau des followers en a ensuite facilité la diffusion sur l ensemble

117 V/2. Reconstitution de cascades de diffusion 115 du service. Alors qu il existait au départ de nombreuses conventions, seules deux d entre elles ont été largement reprises et utilisées : le préfixe «VIA» et le préfixe «RT». Boyd et al. (2010) ont étudié les usages associés aux retweets et montrent que les choix dans l attribution de l auteur et dans la transcription du message relèvent de stratégies très variées de communication et de conversation. Twitter a finalement décidé d implémenter le retweet directement dans son interface en 2010, en créant un bouton «retweet» permettant d effectuer l opération en un clic. Ce système de «retweet automatique» modifie la manière dont les messages sont affichés : c est désormais toujours le message d origine qui est affiché, avec son auteur, et non la personne qui l a relayé. Le processus de diffusion est donc dissimulé par ce mécanisme, dans la mesure où il n y a pas d information accessible sur l éventuelle chaîne de personnes qui ont pu retweeter le message affiché. Les données renvoyées par Twitter ne permettent donc plus de reconstituer des parcours de diffusion, mais plutôt de reconstituer des étoiles, beaucoup d utilisateurs citant l auteur original d un message populaire. Il s agit là d un choix cohérent dans le cadre de la plateforme : ce mécanisme permet de regrouper plus facilement les retweets et donc de mesurer plus efficacement la portée d une diffusion. La disparition de l information sur les étapes intermédiaires (au moins dans le cadre de l API) appauvrit en revanche les traitements qu on peut effectuer sur ces mêmes données. Beaucoup des travaux effectués sur les phénomènes de diffusion sur Twitter avant 2010 ne seraient pas reproductibles avec le système actuel. Notre principal objectif est de dépasser cette limitation, en reconstituant des parcours de diffusion à partir des séquences de retweets et d interactions entre les utilisateurs ayant participé à la diffusion d un même message. A partir d un corpus de données de grande taille, nous montrons qu une grande partie des retweets peuvent être expliqués par les interactions précédant la diffusion. Nous confirmons également le biais de constitution d étoiles induit par l utilisation du bouton retweet et nous montrons comment restituer des structures de diffusion plus riches. Nous présentons en particulier un scénario dans lequel une grande proportion des retweets d un message peuvent être expliqués par la présence d un «retweeteur influent» dans la chaîne de diffusion. Comme notre approche nécessite de disposer d un ensemble de chaînes contenant un nombre important de retweets, nous avons choisi de travailler à partir d urls promues par Hackernews, un agrégateur de liens spécialisé dans les nouvelles technologies. Nous n avons pas utilisé le corpus Twitter de Linkfluence : nous avions besoin d étudier des chaînes complètes de diffusion et l échantillonnage aurait pu entraîner des biais importants dans les mécanismes observés. Contrairement à de nombreux travaux sur l analyse de la diffusion, nous

118 116 Activité des utilisateurs avons choisi de ne pas rechercher de motifs de cascades dans un grand réseau, mais plutôt de travailler sur un ensemble de cascades que nous collectons une à une. Comme la distribution de la taille des cascades est très hétérogène, nous avons choisi de nous intéresser en particulier aux cascades de tailles moyenne (de 50 à quelques milliers de tweets), qui permettent d observer des motifs de diffusion tout en restant relativement simples à collecter d un point de vue technique. 2.1 Analyse d une chaîne de diffusion Notre objectif est de reconstituer les chaînes de retweets, c est-à-dire les séquences d utilisateurs intermédiaires qui ont pu conduire une personne à partager un message. Lorsqu un tweet publié par un utilisateur est retweeté par une chaîne d utilisateurs à l aide du bouton de retweet, tous les messages retweetés apparaissent comme s ils avaient tous retweeté directement le message original. Les informations renvoyées par l API Twitter ne permettent pas de savoir quels ont pu être les étapes intermédiaires de la diffusion. Si l on modélise les données obtenues sous forme de graphe, les retweets vont apparaître sous la forme d une étoile centrée autour du message original. Nous formulons l hypothèse que l on peut reconstituer les chaines de diffusion à partir des interactions passées entre les utilisateurs. Nous définissons dans la sous-section suivante les différents types de relations que nous avons étudiées. Relations entre les utilisateurs Soit S un ensemble de tweets que nous appellerons diffusion (ou spread). Une diffusion est construite de manière à regrouper tous les messages qui citent un même contenu (url ou hashtag). En pratique, nous avons choisi de construire nos spreads en regroupant tous les tweets qui contiennent la même url. Nous définissons aussi S rt, qui est le sous-ensemble de S composé des retweets. Nous étudions les relations suivantes, orientées entre les utilisateurs u et v qui ont tous les deux posté un tweet appartenant à S : retweet u a retweeté v ; known u connaît v et l a retweeté ; spread u connaît v, et v a retweeté un tweet appartenant à S avant que u ne le fasse. La notion de «connaître» peut être définie de différentes façons : ami u suivait v au moment où la diffusion a commencé ; interaction u a déjà interagi avec v, via une mention ou un retweet, avant le début de la diffusion.

119 V/2. Reconstitution de cascades de diffusion 117 Formalisation Pour un tweet t S, a(t) désigne son auteur, τ(t) est le timestamp de la date et de l heure de publication de t et rt(t) est l utilisateur retweeté (si t est un retweet). L ensemble V regroupe les utilisateurs qui ont posté un tweet ou ont été retweetés dans S rt : V = {a(t) rt(t), t S rt }. Nous définissons aussi le graphe des retweets G rt = (V, E rt ), dans lequel (u, v) E rt si u et v appartiennent à V et u a retweeté v dans S rt. Ce graphe peut être construit facilement en interrogeant l API de Twitter. Pour expliquer la diffusion de S rt, nous comparons G rt avec les relations entretenues par les utilisateurs appartenant à V avant le début de la diffusion. Nous définissons deux graphes, G f (pour les amis) et G 0 (pour les interactions). G f = (V, E f ) est le graphe des amis, où E f est l ensemble des relations (u, v) telles que u suit v au début de la diffusion. Le graphe G 0 est défini à partir de S 0, qui est l ensemble des tweets des utilisateurs de V qui ont été publiés avant le début de la diffusion : τ(t ) < τ(t) pour tout t S 0 et t S. Nous définissons alors le graphe des interactions G 0 = (V, E 0 ), où (u, v) E 0 si u a retweeté ou mentionné v dans S 0. Nous définissons les hypothèses d explications suivantes en comparant S avec un graphe préexistant G p = (V, E p ) qui peut correspondre à G f ou à G 0. Un tweet t S rt est expliqué par relation de connaissance si (a(t), rt(t)) E p. Ces relations sont définies de la manière suivante : E known = E rt E p. Un tweet t peut être expliqué par relation de diffusion par un tweet t S rt si τ(t ) < τ(t), rt(t) = rt(t ) et (a(t), a(t )) E p. Nous définissons ainsi l ensemble de relations E spread : E spread = {(a(t), a(t )), t explique t par diffusion} Ces relations permettent de définir les graphes suivants, qui pourront être comparés au graphe original des retweets (G rt, que nous avons défini plus haut) pour analyser le processus de diffusion : retweets G rt = (V, E rt ) rel. de connaissance G known = (V, E known ) rel. de diffusion G spread = (V, E spread ) rel. expliquées G X = (V, E known E spread ) Rappelons que tous les graphes proposant une explication peuvent être calculés de deux manières différentes, selon type de graphe choisi pour représenter G p (G f ou G 0 ). La figure V.1 illustre les différences de construction de ces graphes.

120 118 Activité des utilisateurs G rt Figure V.1 Illustration de la méthode de construction des graphes Les liens en rouge correspondent aux relations de connaissance, les bleus correspondent aux relations de diffusion (à droite seulement), les liens noirs aux autres retweets (à gauche seulement). G X Enfin, nous définissons les ensembles S known, S spread et S X, qui correspondent aux ensembles de tweets de S rt qui peuvent être expliqués par une relation dans E known, E spread et E known E spread respectivement. 2.2 Application sur les urls de Hackernews Les relations que nous avons définies pour expliquer une diffusion ont été conçues pour être étudiées sur un grand ensemble de diffusions d urls. Ces urls doivent avoir été suffisamment citées pour fournir des motifs de diffusion significatifs. Il nous faut cependant veiller à ce que le volume de tweets à collecter soit compatible avec les limitations de l API Twitter, ce qui nous empêche de collecter un grand nombre d urls qui seraient citées par des milliers de personnes. Enfin, il nous faut trouver un critère permettant de collecter un grand nombre de ces urls pour obtenir un corpus de diffusions avec une grande variété de configurations. Nous avons choisi de crawler le site Hacker News 3, qui est un agrégateur de liens et d actualités spécialisé dans l univers des startups et des nouvelles technologies. Ce site présente l avantage de réunir et de mobiliser une grande communauté d utilisateurs qui sont souvent très actifs sur Twitter. Présentation des données Le site Hacker News permet aux utilisateurs de proposer des urls à la communauté, qui peut en retour noter les liens et les commenter. La page principale recense la liste des nouvelles jugées les plus intéressantes : elles 3.

121 V/2. Reconstitution de cascades de diffusion 119 sont affichées en fonction de leur date de soumission et des notes qu elles ont reçues. La plupart des urls soumises ne restent accessibles depuis la première page que pendant quelques heures, mais les plus populaires peuvent rester une journée entière. Ces liens sont souvent partagés sur Twitter, soit par des robots (certains publient les urls dès qu elles sont soumises, d autres ne publient que celles qui dépassent un certain score de popularité), soit par des utilisateurs qui suivent ce site. Les liens proposés sur le site permettent donc de trouver des exemples de diffusion sur Twitter qui correspondent bien à nos objectifs et à nos contraintes de captation. Nous avons collecté en moyenne 36 urls par jour qui ont été retweetées plus de 50 fois, avec quelques urls qui ont dépassé le millier de retweets. Nous avons suivi la publication des nouvelles de juillet à décembre 2012, en collectant chaque heure la liste des urls qui apparaissaient alors sur la première page, et nous avons collecté l ensemble des tweets qui les citaient pour construire le graphe des retweets G rt. Nous avons ensuite collecté pour chaque utilisateur présent dans G rt : la liste des utilisateurs qu il suit, pour construire G f ; l ensemble des messages qu il a publiés, pour construire G 0. Notons que l API de Twitter limite la quantité de données que nous pouvons collecter aux 3000 derniers messages de chaque utilisateur et qu elle ne fournit pas les dates d ajout d un nouvel ami. Le graphe G f est donc en pratique une approximation de l ordre d une ou deux heures au mieux, en fonction du temps écoulé entre le début de la diffusion et notre première captation. Le nombre de tweets citant les urls collectées est très hétérogène, tout comme le nombre de diffusions auxquelles chaque utilisateur a participé. 2.3 Explication des retweets Nous mesurons la proportion des retweets expliqués pour chaque url et montrons que les modèles que nous proposons dans la section précédente permettent de bien expliquer une grande partie des diffusions observées. Taux d explication Pour évaluer dans quelle mesure les relations que nous avons définies permettent d expliquer les retweets que nous avons collectés, nous définissons les taux suivants, calculés à partir d un ensemble de tweets liés à une url et au graphe préexistant qui y correspond : P known = S known S rt, P spread = S spread, P X = S X S rt S rt. La table V.3 présente le premier quartile et la médiane des valeurs de

122 120 Activité des utilisateurs chacune de ces proportions pour les graphes préexistant G 0, G f et leur intersection, G 0 G f. G 0 G f G 0 G f 1st q. med. 1st q. med. 1st q. med. P known P spread P X Table V.3 Proportions d explications (1er quartile et médiane pour toutes les urls) à partir des graphes préexistant G 0, G f et de leur intersection La plupart des retweets sont expliqués pour la plupart des urls, avec des taux légèrement meilleurs pour G f. Nous remarquons par ailleurs un chevauchement important de G 0 et G f. Le tableau se lit de la manière suivante : P X est inférieur à 0.75 pour seulement un quart des urls, lorsque l on utilise G 0 en tant que graphe préexistant. Comme les résultats agrègent les statistiques sur l ensemble des urls étudiées, la relation P X P spread + P known ne se vérifie pas lorsqu on observe les quantiles d un ensemble d urls, alors qu elle est toujours vraie si on considère une seule url. Notre méthode nous permet donc d expliquer plus de 75% des retweets pour 3/4 des urls que nous avons observées. Nous constatons que la relation de connaissance représente la principale source d explication : les utilisateurs interagissent le plus souvent avec des contacts avec qui ils sont déjà en relation, comme nous l avons souligné dans le chapitre II. Interactions vs. amis Pour ce qui concerne le choix du graphe préexistant, nous constatons que les taux d explication sont légèrement supérieurs lorsqu on utilise G f, c est-à-dire le graphe des utilisateurs déjà suivis. Cela peut s expliquer par le fait que les utilisateurs consultent le plus souvent leur propre timeline, qui est composée des tweets de ces mêmes contacts. Cependant, le graphe G f que nous collectons peut être biaisé dans la mesure où nous ne pouvons pas savoir si les contacts ont bien été ajoutés avant le début de la diffusion. L utilisateur a donc pu dans quelques cas ajouter un contact après avoir observé un tweet contenant l url dans sa propre timeline, ce qui dans ce cas a de fortes chances d inverser la relation de causalité. Les résultats obtenus avec G 0 donnent également des taux d explication satisfaisants, et permettent d éviter ce biais, puisque nous disposons des timestamps correspondant à la date et à l heure de la publication des tweets. La dernière colonne du tableau V.3 montre que les explications de ces deux graphes se recouvrent en grande partie. Ce n est pas surprenant, dans la

123 V/2. Reconstitution de cascades de diffusion 121 mesure où on s attend en effet à ce que les utilisateurs interagissent essentiellement avec leurs contacts. Plusieurs travaux insistent cependant sur la différence entre relations déclarées et relations réelles sur ce type de réseau (Efimova & de Moor, 2005). Le chevauchement important entre G 0 et G f nous permet de montrer que, dans notre cas, les relations observées suffisent en grande partie à décrire un phénomène qui s appuie sur des relations déclarées. Diffusion Le scénario d explication par diffusion joue un rôle non négligeable, même s il est plus occasionnel : dans la majorité des cas, il permet d expliquer plus de 10% des retweets. Cela semble confirmer l existence de chaînes de retweets, dans lesquelles les utilisateurs ne prennent connaissance d un message que par l intermédiaire d autres utilisateurs avec lesquels ils sont déjà en contact. Nous observons par ailleurs que le taux d explication par diffusion est supérieur au taux d explication par connaissance pour 5% des urls observées. Ces urls sont ainsi retweetées plus souvent au delà du premier cercle d utilisateur connectés à l auteur original. Cela se traduit dans la proportion de retweets parmi l ensemble des tweets qui citent les urls, avec une proportion moyenne de 59%, contre 39% en moyenne pour l ensemble de notre corpus. Ces différences se traduisent aussi dans la morphologie des graphes ainsi créés, comme le montre la figure V.2. Si on considère les degrés des trois sommets A, B et C dans les deux graphes correspondant à G rt et G X, on constate que notre méthode permet de relativiser la position centrale de A dans G rt au profit de B, qui semble d après G X avoir pu jouer un rôle important dans de nombreux retweets de A.

124 122 Activité des utilisateurs B C A G rt C B A G Xrt Figure V.2 Exemple de construction d un graphe de liens expliqués L algorithme de spatialisation a été appliqué aux deux représentations pour prendre en compte le passage des liens noirs (représentant les retweets) aux liens bleus (représentant les relations de diffusion). Les liens rouges correpondent aux relations de connaissance.

125 Chapitre VI Individus et réseaux Dans le chapitre précédent, nous avons étudié la qualification des utilisateurs du réseau Twitter, qu il s agisse de proposer une typologie de leur activité ou d analyser le rôle qu ils peuvent jouer dans des processus de diffusion de l information. Dans ce chapitre, nous complétons cette approche en proposant deux méthodes d analyse des comportements individuels dans de grands réseaux. La première complète notre travail sur le réseau Flickr et consiste à calculer de manière systématique des indicateurs sur chaque membre du réseau, pour comparer des utilisateurs qui ont des caractéristiques similaires. Il s agit ici d un moyen de répondre aux difficultés liées à l analyse des grands réseaux, dans lesquels il n est pas possible de trouver des critères satisfaisants pour séparer les utilisateurs à partir d une variable fortement hétérogène. Nous présentons ensuite une expérience qui consiste à recueillir les données de grands réseaux sous la forme d un grand nombre de réseaux égocentrés. Il s agit d un travail en cours sur le site Facebook, mené dans le cadre de l ANR Algopol et qui consiste à proposer une application qui recueille, pour un utilisateur donné, son réseau d amis et l ensemble de son activité. L utilisateur dispose alors d une interface de visualisation interactive et peut s il le souhaite participer à un entretien avec un sociologue. Ce dispositif a pour objectif de collecter un nombre important de réseaux égocentrés dynamiques et de compléter ces informations par des données qualitatives issues d entretiens. 1 Evolution et constitution des voisinages Le travail sur les données de commentaires de Flickr que nous avons présenté dans le chapitre II nous a permis de mettre en évidence plusieurs caractéristiques globales du réseau, et en particulier l importance des relations de transitivité. Cette section a pour objectif de mieux comprendre comment ces relations se traduisent au niveau des individus et de montrer comment 123

126 124 Individus et réseaux les différences observées se répercutent sur la constitution des voisinages. 1.1 La composition de l entourage relationnel Notre objectif est de caractériser différents types de sommets et de comprendre comment ils construisent et organisent leur «réseau» de contacts. Une première étape consiste à mesurer pour chaque sommet son degré (deg(u)) et la proportion de ses voisins proches (P (u)). Nous effectuons ces mesures sur le graphe de l ensemble des commentaires, sans suppression de liens, que nous notons G. 1e Effectifs Degré Figure VI.1 Distribution des degrés pour l ensemble des commentaires 0.6 Proportion des effectifs Proportion de voisins proches : P(u) Figure VI.2 Distribution des proportions de voisins proches pour l ensemble des commentaires Les figures VI.1 et VI.2 montrent la distribution de ces deux indicateurs. Comme pour tous les graphes de terrain (dont les grands réseaux sociaux), la distribution des degrés (fig. VI.1) est très hétérogène, il y a un très grand nombre de sommets de très faible degré ( sommets de degré 11) côtoyant quelques sommets avec un degré très élevé (le degré maximum est de 8 731).

127 VI/1. Evolution et constitution des voisinages 125 La distribution de la proportion de voisins proches (fig. VI.2) ne concerne que les sommets qui ont au minimum 2 voisins. En effet, un sommet ne peut pas avoir de voisin proche s il ne possède pas déjà un voisin pour servir d intermédiaire. Cette distribution est par ailleurs difficile à apprécier car elle est en partie biaisée par la distribution des valeurs possibles. Par exemple, les sommets de degré 2 ne peuvent avoir que deux valeurs pour P (u), qui sont 0% s ils n ont aucun voisin proche et 50% s ils en ont un. Comme les sommets de faible degré sont les plus nombreux, cela conduit à une forte proportion de sommets pour lesquels P (u) prend une valeur de 0% ou de 50%, ce qui explique en grande partie les deux pics que l on observe sur l histogramme pour les classes [0% 10%] et [50% 60%]. Si l on écarte ces deux pics, on constate que l intervalle [10% 49%] est plus peuplé que l intervalle [60% 100%]. Le graphe des commentaires semble donc être composé d une majorité de sommets qui ont une faible proportion de voisins proches, ce qui semble contradictoire avec la proportion moyenne de 70% de voisins proches que nous avons calculée pour l ensemble du graphe dans le chapitre II. Cette contradiction apparente est résolue si on compare les distributions de P (u) en regroupant les sommets en fonction de leur degré Degrés 10 à Degrés 40 à Proportion des effectifs 0.3 Proportion des effectifs Proportion de voisins proches : P(u) Proportion de voisins proches : P(u) Degrés 100 à Degrés >= à Proportion des effectifs 0.3 Proportion des effectifs Proportion de voisins proches : P(u) Proportion de voisins proches : P(u) Figure VI.3 Distribution des proportions de voisins proches en fonction des degrés. Les abscisses correspondent aux valeurs de P (u) et les ordonnées aux effectifs La figure VI.3 représente les distributions obtenues. Plus le degré est important, plus les valeurs de P (u) sont élevées : les sommets de faible degré (inférieur à 40) ont des proportions relativement faibles, les sommets de degré intermédiaire (de 40 à 100) ont une distribution homogène, et la proportion de voisins proches devient de plus en plus élevée pour les sommets de fort

128 126 Individus et réseaux degré. Près de 90% des sommets dont le degré est supérieur ou égal à 750 ont une proportion de voisins proches supérieure à 80%. L interprétation de ces résultats est délicate, car la taille du voisinage à distance 2 augmente très fortement en fonction du degré : on peut supposer que les sommets de fort degré ont plus de chances d entrer en contact avec un voisin proche, même s il est choisi de façon aléatoire. On constate en effet que les sommets de degré 20 ont en moyenne voisins à distance 2, avec un maximum de Ces nombres sont élevés mais ils représentent malgré tout une très faible proportion de l ensemble des sommets. Par ailleurs, tous les sommets de degré supérieur à ont plus de voisins à distance 2 soit environ un quart de l ensemble des sommets, mais leur proportion de voisins proches dépasse les 90%. La très grande taille du voisinage à distance 2 pour les sommets de fort degré ne suffit donc pas à expliquer ce phénomène. On observe des résultats semblables si on effectue les mêmes mesures sur le graphe des commentaires réciproques avec des ordres de grandeur réduits, en raison de sa plus petite taille. Le degré maximum est alors de et on peut obtenir des distributions de la proportion de voisins proches presque identiques en choisissant respectivement des classes de degré 10 à 29, 30 à 79, 80 à 499 et supérieur à 500. L ensemble de ces résultats nous confirment que les sommets de fort degré jouent un rôle important dans la structuration du «petit monde» en concentrant autour d eux l essentiel des zones denses, mais les fortes valeurs de P (u) soulignent l importance de la transitivité dans la construction de leur entourage. Ce caractère local de l entourage des sommets de fort degré, qui relativise la notion de centralité de degré est aussi souligné par Cha et al. (2009a), qui observe que les photographies les plus populaires sont le plus souvent choisies comme favorites par des utilisateurs à très faible distance du propriétaire de la photographie. 1.2 Suivi individuel des sommets Pour mieux comprendre l influence de l origine des nouveaux voisins sur la constitution du voisinage, nous avons choisi d adopter une approche égocentrée. Les figures VI.4 et VI.5 ont été obtenues en calculant l évolution de l entourage dans G t de deux sommets A et B (cf. section 1.4) : nous mesurons chaque semaine le nombre de voisins et de voisins proches, ainsi que le nombre de nouveaux voisins et de nouveaux voisins proches. Nous travaillons ici sur le graphe des commentaires réciproques, sans suppression de liens : l évolution de la taille des voisinages n est donc pas biaisée par l orientation des commentaires, car deux sommets de même degré peuvent avoir des types de relations très différents si un sommet a construit son entourage en envoyant de nombreux messages sans réponse, ou si au contraire il a reçu de nombreux messages auxquels il n a pas nécessairement répondu. Nous gardons malgré tout un indice de cette orientation en mesurant le nombre de

129 VI/1. Evolution et constitution des voisinages 127 Effectifs Activité Nouveaux voisins Voisins Nombre total de voisins Dont voisins proches Nouveaux contacts 10 Dont contacts proches Commentaires émis 40 Commentaires recus Taille distance Temps Figure VI.4 Évolution de l entourage du sommet A, qui privilégie les contacts lointains Effectifs Activité Nouveaux voisins Voisins Nombre total de voisins Dont voisins proches Nouveaux contacts 10 Dont contacts proches Commentaires émis 40 Commentaires recus Taille distance Temps Figure VI.5 Évolution de l entourage du sommet B, qui privilégie les contacts proches Les échelles sont identiques pour les deux figures, sauf pour l évolution de la taille de la distance 2 : le maximum est de pour la figure VI.4 alors qu il n est que de pour la figure VI.5.

130 128 Individus et réseaux commentaires émis et reçus chaque semaine. Notre objectif étant d évaluer les relations entre les proportions de voisins proches et l évolution de la taille du voisinage, nous n avons pas choisi de comparer des sommets de très fort degré. Ils se caractérisent tous par de très fortes valeurs de P (u) et la taille de leur voisinage augmente de manière continue tout au long de leur période d activité. Ces sommets correspondent par ailleurs aux utilisateurs les plus investis dans le service, et ont donc un caractère très exceptionnel. Pour pouvoir observer des variations importantes dans l évolution du voisinage, nous avons choisi d étudier deux sommets de degré 80 : cette valeur est suffisamment élevée pour que l on puisse observer une réelle évolution, tout en restant dans une tranche de degrés où les valeurs de P (u) sont réparties de manière homogène. Les deux sommets sont actifs au cours de la même période, à partir de fin mars Dans le cas du sommet A, caractérisé par une faible proportion de voisins proches (P (A) = 32.5%), le degré augmente par à-coups, avec des paliers successifs. Son activité est équilibrée entre messages émis et reçus, elle est dans l ensemble inférieure à une dizaine de messages par semaine en dehors de pics ponctuels d activité. Le sommet B favorise au contraire les contacts avec son voisinage proche (P (B) = 77.5%) : il est plus actif, avec une vingtaine de messages émis et reçus par semaine en moyenne et un pic d activité de plus 50 messages émis. Son voisinage augmente de façon régulière tout au long de la période. Le sommet A s investit moins dans le service, sauf lors de pics d activité qui peuvent être interprétés comme des périodes d intérêt ponctuel pendant lesquelles il entre en contact avec de nouveaux voisins. Bien sûr, ces deux exemples ne sont pas représentatifs de la variété des situations que l on peut observer, mais la multiplication d observations similaires nous a permis de constater que les profils d évolution des sommets à faible P (u) sont très variés alors que ceux des sommets à P (u) élevé sont souvent réguliers, en particulier lorsqu il s agit de sommets de fort degré. Cha et al. (2009a) ont adopté une démarche similaire pour étudier l évolution du nombre d utilisateurs qui ajoutent une photographie parmi leurs «favoris». Ils montrent que la courbe d évolution augmente de façon régulière, sauf en cas d évènement extérieur (e.g. la photographie gagne un prix, est mise en page d accueil du site) qui se caractérise par l arrivée massive de nouveaux «fans» et donc par un pic de croissance. On peut donc imaginer que les profils d évolution variés des sommets à faible P (u) sont davantage liés à des évènements extérieurs alors que ceux des sommets à fort P (u) correspondent plutôt à une évolution caractéristique des utilisateurs au sein de la plateforme. Pour mieux comprendre ces différents comportements, nous nous intéressons au rythme de l activité des sommets.

131 VI/1. Evolution et constitution des voisinages Mesure de l activité de chaque individu Pour mesurer les rythmes de l activité des acteurs du réseau, nous introduisons quelques mesures supplémentaires. Nous déclarons un sommet actif, au cours d un intervalle de temps donné, s il a émis au moins un commentaire au cours de cet intervalle. La durée d activité d un lien est l intervalle de temps écoulé entre sa première et sa dernière occurrence ; de la même manière, la durée d activité d un sommet est l intervalle de temps écoulé entre les dates de première et de dernière activité du sommet. Ces deux mesures ne tiennent pas compte des variations dans l activité des sommets et en particulier d éventuelles périodes d inactivité. C est pourquoi nous choisissons de regrouper nos données en intervalles de temps fixe, et nous définissons l activité réelle d un sommet en comptant le nombre d intervalles au cours desquels le sommet est actif. Nous avons choisi pour notre étude d exprimer l activité réelle en intervalles d une semaine. 1e Effectifs Durée Figure VI.6 Distribution des durées d activité des sommets pour l ensemble des commentaires La figure VI.6 présente la distribution des durées d activité, exprimées en jours, pour l ensemble des sommets du graphe. On dénombre sommets avec une durée d activité inférieure à une journée et la durée maximale est de 925 jours. La distribution semble décroître faiblement 1 pour les sommets qui ont une durée d activité comprise entre 100 et 500 jours. Si on s intéresse à l activité des sommets pour le graphe des commentaires réciproques, on obtient une distribution similaire, mais avec une proportion beaucoup moins importante de sommets dont la durée est inférieure à une journée, que nous désignerons comme des sommets éphémères. Nous ne présentons pas ici la distribution de l activité des liens, mais elle suit une distribution tout à fait comparable, avec un grand nombre de liens de très 1. L utilisation d une échelle logarithmique pour l axe des ordonnées ne permet pas de voir en détail cette section.

132 130 Individus et réseaux courte durée, un intervalle de durées relativement stable, et quelques liens de longue durée. La distribution de l activité réelle des sommets est quant à elle plus hétérogène que celle des durées d activité, tout en restant dans les mêmes ordres de grandeur. Durée d activité Tous les commentaires Commentaires réciproques moins d une journée 62.3% 26.7% moins d une semaine 65.3% 30.8% moins d un mois 70.7% 39.3% moins de 3 mois 78.3% 53.2% moins de 6 mois 85.5% 67.5% moins d un an 94.1% 86.5% Table VI.1 Répartition des proportions de sommets actifs en fonction de la durée d activité Nous comparons les résultats des mesures sur les deux graphes dans le tableau VI.1 : les sommets actifs pendant moins d une journée représentent 62.3% de l ensemble des sommets si on considère l ensemble des commentaires, mais seulement 26.7 % pour le graphe des commentaires réciproques. Cette différence n est pas surprenante puisque nous savons que par construction, tout commentaire a reçu une réponse dans le graphe des commentaires réciproques. En pratique, une grande partie de ces réponses arrive très rapidement après l envoi du premier message (Kumar et al., 2006). L écart important des proportions, qui perdure pour des durées d une semaine ou d un mois, nous confirme que le graphe des commentaires réciproques s affranchit d un grand nombre d utilisateurs ponctuels, même si leur proportion reste importante. 1.4 Concentration de l activité 0.6 Proportion des effectifs Concentration de l activité Figure VI.7 Distribution de la concentration de l activité des sommets par tranches d une semaine

133 VI/1. Evolution et constitution des voisinages Degrés 10 à Degrés 40 à Proportion des effectifs 0.3 Proportion des effectifs Concentration de l activité Concentration de l activité Degrés 100 à Degrés >= à Proportion des effectifs 0.3 Proportion des effectifs Concentration de l activité Concentration de l activité Figure VI.8 Distributions de la concentration de l activité en fonction du degré. Les abscisses correspondent à la concentration de l activité et les ordonnées aux effectifs On peut alors mesurer la concentration de l activité d un sommet en faisant le rapport entre son activité réelle et sa durée d activité : nous calculons donc pour chaque sommet le rapport entre le nombre de semaines pendant lesquelles il a émis au moins un commentaire et le nombre de semaines écoulées entre son premier et son dernier commentaire. La figure VI.7 représente la distribution de la concentration de l activité des sommets pour l ensemble des commentaires. On remarque la présence d un pic de sommets qui ont une concentration de 100% : cela correspond aux utilisateurs éphémères, qui se désintéressent rapidement du service et l abandonnent dès la première semaine. La figure VI.8 représente les variations de cette distribution selon quatre classes de degré. On constate que les distributions ressemblent à celles de la proportion de voisins proches, si l on ne tient pas compte du pic de concentration précédemment évoqué. Les sommets de faible degré ont tendance à avoir une activité plus diffuse, les sommets de degré intermédiaire ont une distribution homogène, et la concentration augmente ensuite de plus en plus pour les sommets de fort degré. Lorsque la concentration est faible, cela signifie que le sommet a une activité diluée dans le temps, ce qui peut correspondre à des utilisateurs qui utilisent le service de manière occasionnelle. Les distributions obtenues pour les sommets de fort degré montrent qu une forte proportion d entre eux se caractérise par une activité continue, avec très peu de périodes d interruption.

134 132 Individus et réseaux 1.5 Conclusion Nous avons insisté dans cette section sur le caractère très local des interactions au sein du réseau : on peut nuancer l image idéalisée d un «petit monde» où les individus seraient globalement bien connectés entre eux, en lui substituant celle d un «monde étriqué» où les contacts avec des inconnus restent exceptionnels. Le croisement des échelles nous a aussi permis d observer la grande diversité des configurations locales, qui contrastent avec la stabilité de la structure globale. Enfin, la provenance des nouveaux voisins ou le rythme de l activité sont autant de critères qui peuvent nous aider à caractériser les individus et à nous affranchir des moyennes liées à ces effets de masse. La compréhension des mécanismes constitutifs de la dynamique des réseaux doit bien sûr être affinée en prenant en compte l orientation des relations et en étudiant les répercussions des suppressions de liens sur la constitution et l évolution des voisinages des sommets. Les méthodes d approches que nous avons développées nous permettent par ailleurs de mesurer le caractère essentiel de la gestion du temps par les individus : l élément discriminant n est pas le nombre de photographies que l on peut consulter ou de contacts que l on peut solliciter, mais le temps qu on s accorde pour établir et entretenir ces relations. Les utilisateurs qui parviennent à entretenir un nombre élevé de relations ne sont pas ceux qui sont présents sur le service depuis le plus longtemps, mais ceux qui l utilisent de la manière la plus intensive et la plus efficace, en privilégiant les contacts avec des voisins proches, qui s établissent plus rapidement. Dans ce contexte d «économie de l attention» (Simon, 1971; Lanham, 2007), les différentes configurations des voisinages sont une conséquence de la diversité des modalités de cette nécessaire gestion du temps. La forte proportion des relations transitives nous montre que les utilisateurs de Flickr qui commentent le plus préfèrent des pratiques de «navigation sociale» à l utilisation du moteur de recherche de la plateforme. On pourrait s intéresser dans une perspective plus sociologique aux usages de la photographie comme support de la conversation en comparant le contenu des messages avec les indicateurs que nous avons établis et les pratiques de Flickr avec celles d autres plateformes comme les blogs (Cardon et al., 2007) ou plus récemment Facebook. 2 Dispositif de l enquête Algopol sur Facebook Le travail présenté dans cette section a été effectué dans le cadre du projet de recherche Algopol, qui regroupe des chercheurs en informatique et en sociologie. L un des objectifs est d étudier les formes que prennent le partage et la recommandation d informations sur le site Facebook : contrairement aux sites Twitter et Flickr, une majorité des utilisateurs de Facebook li-

135 VI/2. Dispositif de l enquête Algopol sur Facebook 133 mitent l accès à ce qu ils publient à un cercle restreint de contacts. Nous souhaitons vérifier si les pratiques de conversation et de recommandation diffèrent significativement entre un réseau «public» comme Twitter et un réseau «privé» comme Facebook. Pour cela, une première étape consiste à collecter des données qui décrivent l activité sur Facebook d un large échantillon d individus. Cet échantillon doit permettre de décrire les publications des utilisateurs, les contenus qu ils diffusent et les réactions de leurs amis aux publications, sous la forme de commentaires ou de «likes». Les données de l échantillon doivent être enrichies dans un second temps avec des informations plus qualitatives, obtenues en questionnant les enquêtés sur les relations qu ils entretiennent avec leurs contacts. Nous avons créé une application Facebook, l application Algopol, qui permet de collecter les données des utilisateurs et leur restitue en retour une interface de visualisation et d exploration de leur réseau d amis. L application collecte les informations suivantes : Le profil de l enquêté et de ses amis, ainsi que la liste des pages qu ils ont déclaré aimer ; L ensemble des métadonnées (notamment d horodatage) concernant les contenus publiés sur le mur de l enquêté (par lui-même ou par d autres) depuis l ouverture de son compte Facebook, y compris les commentaires reçus sur ces contenus ; Les réponses à un questionnaire inclus dans l application, sur la proximité de l utilisateur avec certains de ses contacts (ce questionnaire est décrit plus bas). Il s agit donc d un dispositif de recherche participative, qui repose sur le volontariat des internautes. Ce modèle a été utilisé dans le cadre d autres expériences sur le web : happy flu (Friggeri et al., 2011a) s intéresse à la diffusion de l information sur le web. L enquête proposait aux partipants d ajouter un applet sur leurs sites personnels et permettait de tracer sa diffusion. Aguiton et al. (2009) ont élaboré l enquête sociogeeks, qui étudiait le rapport des enquêtés avec les notions de pudeur et d impudeur. Cette enquête prenait la forme d un questionnaire en ligne qui présentait des séries de photographies et demandait à l utilisateur s il pourrait les publier sur le web s il apparaissait dessus. Sur Facebook, Friggeri et al. (2011b) ont créé l application fellows, dans le but de vérifier la pertinence d une mesure de «cohésion», présentée comme une alternative à la modularité de Newman (2004). L application applique cette mesure sur le réseau d amis de l enquêté, lui présente des groupes d amis ainsi obtenus et lui demande d évaluer leur pertinence. Les résultats de cette enquête ont permis aux auteurs de valider leur mesure par l évaluation positive des utilisateurs.

136 134 Individus et réseaux 2.1 Présentation du dispositif Nous présentons ici le dispositif de collecte de données que nous avons mis en œuvre dans le cadre du projet. Un premier protocole expérimental développé par Orange Labs a permis de valider l intérêt scientifique d une telle approche, tout en permettant d identifier les principales difficultés liées à ce type de projet. Les enquêtés devaient ajouter à leurs amis le compte Facebook de Julie Tagline, «enquêtrice virtuelle», ce qui permettait d obtenir les droits nécessaires pour collecter leur réseau d amis. Complété par des entretiens individuels avec des sociologues, ce premier dispositif a permis d étudier près de 60 réseaux d amis. L objectif de l application Algopol était d adapter ce protocole pour qu il puisse être appliqué à plus large échelle. Déroulement de l enquête L application Algopol s appuie sur l API Graph de Facebook, qui permet d interroger la plupart des informations sur les amis et sur l activité d un utilisateur, à condition d obtenir son accord qui se traduit par l utilisation d un token d accès personnalisé. Elle est accessible depuis un site web qui présente le projet, les objectifs de l enquête et les engagements des chercheurs du projet en matière de traitement et de confidentialité des données 2. Les utilisateurs accèdent alors à une page de connexion qui leur présente le déroulement de l application et ses conditions d utilisation. S ils acceptent de participer, les utilisateurs s identifient avec leur compte Facebook pour permettre à l application de collecter leurs données. La collecte s effectue dès que l utilisateur a donné son accord. L application collecte le profil de l enquêté, des informations basiques sur chacun de ses amis, la liste des liens de contact entre eux et l ensemble des informations sur les activités qui apparaissent sur son mur, en remontant jusqu à sa date d inscription sur Facebook. Pour chaque publication, l application collecte la liste des personnes associées (via les «tags»), les commentaires et les likes, c est-à-dire les personnes qui ont déclaré «aimer» le statut. L application effectue alors un calcul de détection de communauté sur le graphe des contacts en utilisant la méthode dite de Louvain (Blondel et al., 2008), avant d indexer l ensemble des données collectées. Les utilisateurs sont alors redirigés sur une page de formulaire qui leur présente cinq contacts sélectionnés parmi ceux qui ont le plus interagi dans leur réseau, c est-à-dire ceux qui ont le plus commenté ou «aimé» leurs statuts. Ils sont alors invités à qualifier leurs relations avec ces utilisateurs, en répondant à un court formulaire. Cette étape permet de compléter les informations collectées via l API avec des appréciations de l enquêté sur sa proximité avec chaque contact, ou la fréquence à laquelle il les rencontre par exemple. La limitation du questionnaire à cinq personnes permet de ne pas 2. L application est accessible sur

137 VI/2. Dispositif de l enquête Algopol sur Facebook 135 décourager les utilisateurs en limitant le nombre de questions auxquelles ils doivent répondre avant d accéder à la carte interactive de leur réseau. Elle s appuie aussi sur les études de Dunbar (1992) et de Gonçalves et al. (2011) qui montrent que l essentiel des interactions s effectuent avec un nombre très limité de contacts. Figure VI.9 Interface de l application Algopol Après avoir répondu au questionnaire, les utilisateurs accèdent à l interface d exploration de leur réseau Facebook, similaire à celle présentée sur la figure VI.9. Celle-ci comporte une fenêtre de visualisation de leur réseau qui leur permet de se déplacer dans la cartographie et de zoomer et dézoomer. Une frise chronologique, située en dessous permet de choisir l intervalle de temps qui correspond à la visualisation, et d observer des évolutions dans le réseau en la faisant glisser d une date à l autre. Le menu situé à côté de la visualisation du réseau permet de sélectionner les propriétés que l on veut représenter. Un moteur de recherche permet enfin de rechercher un ami ou d explorer les textes des publications ou des commentaires sur le mur de l enquêté. Après leur première connexion, les utilisateurs peuvent à tout moment revenir sur le site pour accéder directement à l interface de leur réseau. Ils peuvent également poursuivre la qualification de leurs contacts, ou corriger celles qu ils ont déjà renseignées. Ils peuvent également exporter des images

138 136 Individus et réseaux de leur réseau et les partager sur leur page Facebook, pour encourager leurs contacts à participer à l enquête. Recrutement et diffusion de l application Le test exploratoire mené par Orange Labs, avec l enquêtrice virtuelle Julie Tagline, a montré les limites d un recrutement en «boule de neige», dans lequel l application se diffuse par recommandation à partir d un ensemble de volontaires, en passant de proche en proche. En effet, les enquêtés étaient principalement des parisiens, issus du milieu académique ou technophiles. Le nouveau dispositif permet certes de donner une ampleur bien plus grande à cette diffusion virale, qui nous a permis d atteindre plus de participants au printemps Pourtant, pour s affranchir du biais d homophilie, nous avons également choisi de collaborer avec l institut de sondages CSA, qui a accepté de relayer notre enquête auprès d un échantillon représentatif des internautes français utilisateurs de Facebook. Les enquêtés issus de cet échantillon sont sélectionnés en suivant la méthode des quotas, et les informations collectées sont traitées à part pour permettre de mesurer les catégories qui sont sous-représentées ou sur-représentées, et pondérer les résultats obtenus avec le reste des participants. Nous avons ainsi obtenu la participation de 881 enquêtés appartenant au panel de CSA. Exploitation et confidentialité des données Les données collectées par l application Algopol ont un caractère personnel et peuvent être considérées comme sensibles dans le cadre de la législation française. Nous collectons en effet de nombreuses informations personnelles. En plus des noms et prénoms de l enquêté et de ses contacts, les profils peuvent contenir des informations sur la religion, les goûts ou les opinions politiques des utilisateurs. Les enquêtés choisissent de participer au projet en connaissance de cause, mais l API Facebook ne permet pas de demander l accord de leurs amis pour collecter leurs données. Notre application peut donc collecter des informations qu un utilisateur ne souhaite (et ne pense) pas rendre publiques, si un de ses contacts participe à l enquête et qu il y a accès. Ce cas de figure est d autant plus problématique que nous ne disposons pas de moyen efficace pour prévenir les amis des enquêtés que nous avons collecté leurs données. Le projet a fait l objet d une déclaration à la CNIL, que nous avons par ailleurs sollicitée pour discuter des bonnes pratiques à mettre en œuvre dans le cadre de ce type de recherches. Nous avons aussi veillé à apporter une information très transparente à l utilisateur via le site de l application, de manière à recueillir un consentement explicite et éclairé des enquêtés. Les données collectées ne peuvent pas être anonymisées a priori, c està-dire dès la phase de collecte, car elles doivent être restituées de manière

139 VI/2. Dispositif de l enquête Algopol sur Facebook 137 lisible pour permettre aux participants de consulter leur interface. Il est en revanche possible de les anonymiser avant de les rendre accessibles aux chercheurs. Ceux-ci peuvent donc avoir accès à deux types de données, en fonction du type de recherche qu ils souhaitent mener. Les traitement qualitatifs sont limités aux profils d utilisateurs qui ont accepté, lors de leur inscription, d être rencontrés par des sociologues. Ceuxci peuvent alors utiliser les interfaces de ces utilisateurs volontaires en tant que support pour préparer et animer les entretiens en face à face. Les utilisateurs peuvent enfin demander à être retirés du projet de recherche et à ce que toutes les informations qui les concernent soient effacées des bases de données. Ce droit de retrait peut concerner un enquêté, mais aussi un utilisateur qui n a pas participé à l application, mais dont les informations de profils ou certains messages, likes ou commentaires peuvent avoir été collectés si un de ses contacts a participé à l application. Dans le premier cas, nous effaçons toutes les informations qui sont assocées à l enquêté, dans le deuxième, nous effaçons toutes les mentions de l utilisateur pour l ensemble de nos enquêtés. Ce droit de retrait est en pratique rarement exercé : nous avons eu à traiter moins de vingt demandes en six mois, pour plus de utilisateurs de l application. 2.2 Perspectives d expoitation des résultats L application a été lancée à la fin de l année 2013 : elle a d abord été ouverte aux enquêtés de CSA en novembre, avant d être lancée publiquement au début du mois de décembre. Elle a permis de collecter 881 participations de la part des enquêtés CSA, et participations supplémentaires après le lancement public. Anonymisation et mise à disposition des données Les données collectées ont été anonymisées pour permettre leur traitement par les chercheurs qui participent au projet Algopol. Elles sont hébergées sur la plateforme Huma-Num, infrastructure de recherche nationale visant à faciliter le tournant numérique de la recherche en sciences sociales, et font l objet d un accès contrôlé pour les membres du projet. Dans toutes les données manipulées par les chercheurs, les identifiants des utilisateurs sont chiffrés avec une clef distincte pour chaque enquêté, de sorte que si une personne est présente comme ami de plusieurs enquêtés, son identification ne sera pas possible entre un enquêté et un autre. Ce choix limite fortement les possibilités d attaque en vue de lever l anonymat d une partie des données, dans la perspective d une éventuelle mise à disposition publique des données. Un premier jeu de données a été réalisé en conservant des informations en clair, comme les urls des liens et le contenu des messages partagés sur

140 138 Individus et réseaux le mur, ou encore les pages que les enquêtés ont déclaré aimer. Ces données contiennent donc des informations qui permettent d identifier certains enquêtés. Elles sont destinées à être utilisées pour des traitements de masse d analyse du langage et, dans le cas des sociologues, pour obtenir des éléments qui leur permettront de vérifier ponctuellement l interprétation de résultats obtenus sur des données agrégées. L accès à ce jeu de données est limité à quelques chercheurs, qui signent un engagement écrit stipulant qu ils ne le manipulent que sur le serveur dédié et qu ils n en effectuent pas de copies. Comme tous les chercheurs n ont pas besoin de travailler sur les contenus partagés, nous avons créé un deuxième jeu de données qui est plus fortement anonymisé. Il ne contient ni les messages, ni les urls des liens qui ont été partagés. Seul les identifiants des pages sont conservés après avoir été chiffrés. Cette version contient des informations suffisantes pour effectuer des statistiques sur les réseaux d amis et sur l activité des enquêtés et elle pourra être partagée de manière contrôlée avec des chercheurs qui ne sont pas membres du projet. Enfin, un site web, développé au sein du LIAFA et hébergé sur Huma- Num, fournit une interface qui propose des statistiques agrégées par enquêté. Cette interface permet aussi aux membres du projet qui ne sont pas informaticiens d explorer le corpus et de consulter le détail de certains individus, pour proposer des interprétations qualitatives des phénomènes observés à partir des indicateurs agrégés. Les biais dans la participation des enquêtés L application a été installée par près de utilisateurs, dont 881 issus du panel de l institut CSA. La comparaison des statistiques entre le groupe des «enquêtés CSA» et le groupe des «enquêtés non CSA» fait ressortir de forts déséquilibres dans le recrutement lors de la phase d ouverture publique de l application. Cela se traduit par de fortes différences dans le ratio entre les hommes et les femmes : les hommes représentent 56% des enquêtés CSA, alors qu ils représentent 70% des enquêtés dans le corpus complet. Nous constatons aussi des écarts importants pour la «situation amoureuse» : 14% des enquêtés CSA se déclarent célibataires, et 26% mariés, contre respectivement 21% de célibataires et 12% de mariés dans le corpus complet. Enfin, la population du corpus complet est plus jeune que celle du corpus CSA, et elle habite principalement en région parisienne. Ces déséquilibres se ressentent sur la taille des réseaux d amis et sur le volume des activités observées. La médiane du nombre d amis vaut 78 pour les enquêtés CSA, alors qu elle vaut 266 pour le corpus complet. Les enquêtés du corpus complet sont aussi plus actifs, avec des valeurs médianes de 2500 publications sur le mur et de 480 likes reçus, contre seulement 1300 publications et 81 likes pour les enquêtés CSA.

141 VI/2. Dispositif de l enquête Algopol sur Facebook 139 Ce travail de comparaison est toujours en cours et les membres du projet collaborent avec l institut CSA pour établir une méthode de redressement du corpus complet à partir du corpus CSA. L objectif est de s appuyer sur les répartitions observées dans le cadre de l échantillon CSA, dont la représentativité est mesurable, pour proposer une méthode de génération d un corpus qui contiendrait des proportions similaires en termes de sexe, d âge, de catégorie socio-professionnelle et d origine géographique. Ce redressement pourra prendre deux formes : on peut soit attribuer un poids à chaque individu pour pondérer sa représentativité, soit effectuer un tirage dans le corpus complet en le contraignant pour qu il respecte les différents quotas. Perspectives de recherche Figure VI.10 Exemple des différences entre les liens d amitié, liens de likes en commun, et liens de commentaires en commun L algorithme de spatialisation a été appliqué sur le graphe comprenant les trois types de liens. Les liens d amitié apparaissent en bleu, les liens de likes en jaune, et les liens de commentaires en rouge. Ces figures sont extraites d un travail en cours de Raphaël Charbey. Les données obtenues grâce à l application constituent un corpus riche et original. Les données de chaque enquêté sont isolées et peuvent donc être étudiées comme un réseau égocentré d une part, et comme une série temporelle d activité d autre part. Comme les dates d ajout des amis sur Facebook apparaissent sur le mur des enquêtés, on peut aussi reconstituer la genèse de chaque réseau, mais Facebook ne fournit en revanche aucune trace des amis effacés, ou bien de ceux qui ont paramétré leur compte pour que l application ne puisse pas accéder à leurs informations. Les listes de pages suivies, même anonymisées, peuvent être utilisées pour des mesures d homophilie entre chaque enquêté (ego) et ses amis (les alter).

142 140 Individus et réseaux Nous disposons aussi des contenus partagés, et des réactions des alters à ces contenus, qu elles soient sous la forme de mentions «j aime» ou de commentaires. Plusieurs études sont déjà menées sur ces données dans le cadre du projet. Un premier chantier consiste à s inspirer du travail de Stoica & Prieur (2009) pour établir une typologie des formes de réseaux d amis. Ce travail a aussi pour objectif de comparer les différences de structure entre les graphes obtenus à partir des liens d amitié, de likes ou de commentaires. La figure VI.10 illustre ces différences pour un même réseau. Les séries temporelles obtenues à partir de l activité de publication sur le mur sont étudiées pour établir des profils d activité, avec en particulier la distinction entre les utilisateurs réguliers, ceux qui ont attendu plusieurs mois, parfois plusieurs années après leur inscription avant de commencer à publier, ou d autres pour lesquels on observe des pics d activité. L analyse des contenus des messages va permettre de travailler sur la diffusion de formules ou d expressions, et donc d étudier les mécanismes d adoption de nouvelles formes d expression. Le regroupement des sites mentionnés dans les messages, ou des pages suivies, permet aussi d étudier des co-citations et de regrouper les sites ou les pages qui sont souvent cités ou likés par un même enquêté. La figure VI.11 présente deux cartes obtenues à partir de réseaux de co-citation de liens sur les murs des enquêtés, en y projetant une information visuelle accentuant les sites qui sont davantage cités par des femmes, ou par des hommes. Le recoupement de ces informations avec les données socio-démographiques des enquêtés donne des premiers résultats prometteurs. Bien sûr, la grande richesse des informations collectées permet d envisager bien d autres pistes de recherche, qui sont au cœur des enjeux de l étude des usages du web par l analyse de données massives. Pour cette raison, il serait important de pouvoir mettre à la disposition de la communauté académique dans son ensemble un ou plusieurs jeux de données issus de cette enquête. Pour cela, il est indispensable de mettre en place des protocoles d anonymisation robustes, ce qui constitue en soi un domaine de recherche.

143 VI/2. Dispositif de l enquête Algopol sur Facebook 141 Figure VI.11 Graphes de co-citations de sites à partir des liens partagés par l ensemble des enquêtés Le réseau est le même sur les deux figures, mais la figure du haut fait ressortir les zones de la carte (avec le fond le plus intense) davantage citées par des femmes, et la figure du bas les zones plus citées par les hommes. Ces figures sont extraites d un travail en cours de Jean-Philippe Cointet.

Montrer encore