Analyse des réseaux sociaux



Documents pareils
FaceBook aime les Maths!

Big Data et Graphes : Quelques pistes de recherche

Partie 1. La structure des réseaux sociaux

Big Data et Graphes : Quelques pistes de recherche

Apprentissage Automatique

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux

Introduction au Data-Mining

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

La classification automatique de données quantitatives

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

INTRODUCTION AU DATA MINING

Introduction au datamining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Annexe 6. Notions d ordonnancement.

Spécificités, Applications et Outils

Arbres binaires de décision

THESE DE DOCTORAT. Informatique, Fouille de données

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

Resolution limit in community detection

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

NON-LINEARITE ET RESEAUX NEURONAUX

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Agenda de la présentation

Notice d Utilisation du logiciel Finite Element Method Magnetics version 3.4 auteur: David Meeker

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Enjeux mathématiques et Statistiques du Big Data

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Modélisation du comportement habituel de la personne en smarthome

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Modélisation aléatoire en fiabilité des logiciels

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

FIMA, 7 juillet 2005

Classification Automatique de messages : une approche hybride

mission. Le premier poste du programme de travail du DREV vise la qualification, la quantification et le suivi

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

5. Apprentissage pour le filtrage collaboratif

TRAVAUX DE RECHERCHE DANS LE

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Détection d utilisateurs malveillants dans les réseaux sociaux

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Chapitre 5 : Flot maximal dans un graphe

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Intérêt du découpage en sous-bandes pour l analyse spectrale

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

«Cours Statistique et logiciel R»

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Travailler avec les télécommunications

Théorie des Jeux Et ses Applications

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Pass / 28 Novembre By Philippe Coudol

Raisonnement probabiliste

Lundi de l Economie l Mardi 19 novembre. Foix. CCI Ariège

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Simulation de variables aléatoires

données en connaissance et en actions?

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Algorithmes de recommandation, Cours Master 2, février 2011

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Introduction au maillage pour le calcul scientifique

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Les défis statistiques du Big Data

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Pourquoi l apprentissage?

Quand le bâtiment va, tout va

Transmission d informations sur le réseau électrique

Résolution de systèmes linéaires par des méthodes directes

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Transcription:

Analyse des réseaux sociaux Emmanuel Viennet Laboratoire de Traitement et Transport de l Information L2TI Université Paris 13 Réseaux sociaux, analyse et data mining École Normale Supérieure Journée organisée par le groupe «Data mining et apprentissage» Société Française de Statistique 16/02/2010 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 1 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 2 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Croissance du Web... E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 4 / 69

Croissance des médias sociaux Du web des contenus au web des utilisateurs? Début 2010: Facebook: 400 millions d utilisateurs Twitter: 20 à 60 millions Orkut: 25 millions au Brésil SkyBlog, MySpace, LinkedIn,... E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 5 / 69

Les entreprises collectent de plus en plus de données sur les relations entre leurs clients E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 6 / 69

Mais quels modèles économiques? Sites payants: peu d audience Sites institutionnels (services publics) Mécénat, donations (Wikipédia) Site gratuits, publicité Publicité personnalisée Marketing viral Marketing temps réel... Et pour fidéliser les visiteurs d un site social : animation de communauté, suivi d un site à l autre,... besoin d analyse (fouille) de données de type graphe E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 7 / 69

Mais quels modèles économiques? Sites payants: peu d audience Sites institutionnels (services publics) Mécénat, donations (Wikipédia) Site gratuits, publicité Publicité personnalisée Marketing viral Marketing temps réel... Et pour fidéliser les visiteurs d un site social : animation de communauté, suivi d un site à l autre,... besoin d analyse (fouille) de données de type graphe E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 7 / 69

Contexte: fouille de données structurées Des tables aux données structurées... Modèles: discrimination, régression, classification... E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 8 / 69

Réseaux (sociaux ou non) Pages Web Routeurs Internet Facebook Communications Citations Biologie E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 9 / 69

Réseaux sociaux à l ère Internet... Appels téléphoniques Courrier électronique Réseaux de co-auteurs Réseaux d amitié Réseaux organisationnels Réseaux d affiliation E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 10 / 69

Exemple: le réseau Twitter Chaque utilisateur: émet de courts messages (140 caractères) suit (reçoit) les messages de quelques utilisateurs suivi (lu) par d autres. Tous les messages sont publics Environ 25 millions d utilisateurs (?) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 11 / 69

Analyse du réseau Twitter (2007, Bruno Peeters, Belgium) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 12 / 69

Marketing & recommandation: la longue traine Chris Anderson, The Long Tail, Wired, Issue 12.10 - October 2004 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 13 / 69

Marketing, recommandation et réseaux sociaux Besoin de recommandations personnalisées! > 50% font des recherches en ligne avant d acheter Les recommandations personnalisées sont basées sur les achats et notations passées, par ex. le système d Amazon les clients qui ont acheté ceci achètent aussi cela MovieLens, based on ratings of users like you... Epinions, based on the opinions of the raters you trust... Nous sommes plus facilement influencés par nos amis que par des inconnus! 68% des clients consultent leurs amis ou famille avant d acheter des produits électroniques (Burke 2003) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 14 / 69

Applications de l analyse des réseaux sociaux Étude de la structure des réseaux: communautés, diffusion,... (animation, vente ciblée) Web: recherche, extraction d information Marketing: identifier des groupes de clients ou produits pour faire des recommandations (publicité ciblée, marketing viral) Personalisation (interfaces, services) Epidémiologie Détection de fraude Sécurité (contre-terrorisme)... E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 15 / 69

Problèmes intéressants pour la fouille de données Un domaine scientifiquement passionnant et pluri-disciplinaire: Data mining et Apprentissage pour: la caractérisation des réseaux sociaux la modèlisation de la diffusion d information (par ex. pour le marketing viral) la modèlisation de l évolution (par ex. créations de nouveaux liens) la classification de nœuds E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 16 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Ordres de grandeurs Quelques jeux de données utilisés en recherche: Nombre de nœuds e-mails labo sur 2 mois 1000 e-mails sur 2 ans 50000 amitiés entre bloggueurs 4,4 millions Téléphone 10-100 millions Communications IM 240 millions Parcimonie (sparseness): nombre de liens proportionnel au nombre de nœuds. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 18 / 69

Graphes Théorie des graphes depuis Euler... Très nombreux résultats: chemins, flots, cliques, décompositions spectrales... 0 B @ 1 2 0 2 2 1 1 0 1 1 1 1 2 0 1 1 1 C A E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 19 / 69

Réseaux sociaux et graphes: quelles différences? Un réseau social est un graphe, mais: nœuds porteurs d attributs liens valués pouvant porter des données (messages) similarité entre deux nœuds = f (attributs, liens) caractéristique du réseau 6= graphe aléatoire (propriétés structurelles spéciales) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 20 / 69

Exemple de propriété structurelle: l effet petit monde Longueur moyenne du plus court chemin reliant deux nœuds petite. six degrés de séparation Caractéristique liée à la distribution des degrés: graphe sans-échelle (Barabasi, 2000), suivant une loi de Pareto: P(degré d un nœud = k) k γ E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 21 / 69

Exemple: simulation du réseau Internet (Mahadevan et al., 2007) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 22 / 69

Etude des réseaux sociaux: terminologie Contagion: flux dans le graphe (microbes, information, modes...) Connection: arêtes du graphe social Homophilie: qui se ressemble s assemble E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 23 / 69

Transitivité dans les réseaux sociaux Une relation sociale est transitive si tous les acteurs sont liés: triangles Coefficient de clustering Lié au nombre de voisins d un nœud qui sont eux mêmes reliés (Watts et Strogatz, 1998) A, C: grande transitivité, ancrés dans leurs groupes B, D: faible transitivité, ponts E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 24 / 69

Intermédiarité Définition Nombre de plus courts chemins passant par une arête (Newman 2004) Utilisation: nœuds importants pour la communication découpage en communautés E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 25 / 69

Communautés (P. Pons, 2007) Recherche de communautés = partitionnement du graphe en N Identification = recherche d une communauté autour d un nœud donné E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 26 / 69

E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 27 / 69

Hiérarchie de communautés et modularité D après Newman & Girvan, 2004 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 28 / 69

Intérêt de la recherche de communautés Organisation structurelle (micro ou macro) Évolution temporelle (voir exposé de JL Guillaume) Visualisation Permettre une analyse locale des interactions Animation des réseaux sociaux... E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 29 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Clustering à base de modèle pour les réseaux sociaux Ce type d approche vise à modéliser simulanément les distributions de probabilité des attributs de nœuds et de leurs positions dans l espace social : on introduit des variables latentes. Représentation du réseau social La matrice Y ij décrit les liens entre les nœuds. Z = z i R d donne les positions des nœuds dans l espace (latent) R d E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 31 / 69

Modélisation (suite): le modèle Exemple: approche de Handcock & Raftery, 2006 n nœuds, Y = y ij matrice d adjacence ( sociomatrix ). Les liens sont considérés comme indépendants: P(Y Z, X, β) = i j P(y ij z i, z j, x ij, β) où: X : attributs des nœuds (ou de la paire (i, j)) β : paramètres du modèle Modélisation par régression logistique: avec 1 n i z i 2 = 1 logit(y ij = 1 z i, z j, x ij, β) = β T 0 x ij β 1 z i z j E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 32 / 69

Modélisation (suite): estimation Clustering par modélisation des coordonnées z i en mixture de gaussiennes: z i G λ g exp( z i µ g 2 ) with λ g > 0 and λ g = 1 g=1 2σ 2 g G nombre de clusters, fixé à priori Estimation des paramètres : maximum de vraisemblance (chaîne de Markov ou Monte Carlo) estimation coûteuse en calculs E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 33 / 69

Modélisation (suite):: application 1 Le choix du nombre de clusters G se pose comme un problème de sélection de modèle (utiliser par exemple un critère BIC) lent! Relations entre moines Étude sociologique: amitié entre moines 18 nœuds (moines) 3 groupes de moines, qui correspondent à ceux identifiés par les sociologues E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 34 / 69

Modélisation (suite): application 2 Liens entre adolescents dans un collège Relations entre 71 adolescents (ici 6 clusters) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 35 / 69

Modélisation (suite): conclusions Méthodes complexes (calculs lourds) mais précises Prise en compte simultanée des liens et des nœuds Applicable uniquement aux très petits réseaux! = on utilise souvent les méthodes structurelles d extraction de communautés, qui ne prennent en compte que les liens (le graphe) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 36 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Principal critère de qualité: la modularité La modularité mesure la qualité d un découpage du graphe en c communautés Q = i (d ii ( j d ij ) 2 ) D matrice c c, dont les éléments d ij donnent la proportion de liens reliant des nœuds de la communauté i à la communauté j Q [ 1, 1] mesure la densité des liens intra-communautaires vs inter-communautaires E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 38 / 69

Recherche de communautés structurelles De nombreux progrès récents Méthodes basées sur l intermédiarité Première proposition: Newman & Girvan (2004) Répéter: 1 calculer l intermédiarité des arêtes 2 couper l arête la plus importante jusqu à isoler tous les nœuds (méthode séparative) Pour un grand réseau parcimonieux de n nœuds: Newman & Girvan 2004 O(n 3 ) Newman 2004 O(n 2 ) Wakita & Tsurumi 2007 O(n log 2 n) Blondel et al. (Louvain) 2008 O(n log n) moins de 5 minutes pour 1 million de nœuds, ou 40 minutes pour 23 millions E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 39 / 69

Exemple 1: réseau de collaboration entre scientifiques D après K. Martin et M. Avnet, 2006. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 40 / 69

Exemple 2: site web collaboratif Liens entre utilisateurs du site MyMondomix (projet ANR CADI) Modularité Q = 0, 62 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 41 / 69

Exemple 3: XTelco Données d un opérateur téléphonique Numéro appelant Numéro appelé Durée d appel 0102030405 0800101213 3 03......... 126 millions d appels, 25 millions de clients. Niveau Nœuds Modularité 0 22 millions 0,53 1 2,5 millions 0,75 2 250 000 0,78 3 100 000 0,79 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 42 / 69

Identification of communautés Chercher un voisinage (micro-communauté) à partir d un nœud donné E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 43 / 69

Principes de l approche physique (Wu & Huberman) On considère le graphe comme un circuit électrique Loi de Kirchhoff sur le nœud C: n I i = i=1 n i=1 V Di V C R = 0 Si graphe avec arcs valués par w ij, on défini R ij = w 1 ij On fixe la tension en deux nœuds: V 1 = 1, V 2 = 0 et on a: V i = 1 k i n V j a ij + 1 a i1 k i j=3 pour i = 3,..., n k i : degré du nœud i, a ij matrice d adjacence. Ce système d équations linéaires se résoud en O(n 3 ) (lent). E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 44 / 69

Résolution approchée rapide Méthode itérative: 1 fixer V 1 = 1, V 2 = = V n = 0 (en temps O(V )) 2 mettre à jour la tension de chaque nœud (en O(E)) 3 répèter l étape 2 La précision après l étape 2 ne dépend que du nombre d itérations, pas de la taille du graphe. Quelques dizaines d itérations suffisent pour converger. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 45 / 69

Recherche de communautés: problèmes ouverts Prendre en compte (efficacement) les attributs des nœuds et la structure du graphe. La modularité est-elle le bon critère? (eg Fortunato 2006) Contrôler la distribution des tailles des communautés Communautés avec recouvrement Suivi dynamique Graphes bipartites E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 46 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Catégorisation de nœuds Applications: marketing (churn, influence), categorization de textes,...?? E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 48 / 69

Catégorisation de nœuds Première approche: Relaxation labeling par ex. (Angelova et al 2006) Augmentation d un tiers du score F1 / SVM sur les noeuds seuls. => gains importants sur des applications diverses E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 49 / 69

Catégorisation de nœuds: une approche simple La RL est lente sur de grands graphes Idée: pour catégoriser les nœuds à partir de leurs attributs et de leur position dans le graphe, exprimer celle ci comme de nouveaux attributs: caractéristiques locales du graphe (degré, triangles,...) attributs décrivant la communauté à laquelle appartient le nœud E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 50 / 69

Exemple: catégorisation de texte E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 51 / 69

Catégorisation de texte (suite) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 52 / 69

Application: triage de bugs (Bugzilla) Bug tracker du projet Eclipse (Open Source) Réseau de développeurs 10 000 bug reports, 2100 utilisateurs 50 000 liens: personnes travaillant sur le même bug objectif: associer le bug à un développeur Niveau # communautés Modularité 0 2081 0.01 1 229 0.26 2 16 0.36 3 14 0.37 Méthode Performance TF-IDF SVM 32% TF-IDF + Communauté de l auteur SVM 38% E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 53 / 69

Plan de l exposé 1 Introduction: fouille des réseaux sociaux 2 Caractérisation des réseaux sociaux 3 Analyse relations/contenu: un exemple d approche 4 Analyse structurelle: communautés 5 Catégorisation de nœuds 6 Méthodes à noyaux pour les graphes

Espace de représentation et noyaux Projection dans un espace de représentation: transformation Φ X Φ F O X Φ(Ο) Φ(X) Φ(Ο) O X X X Φ(Ο) Φ(X) O Φ(Ο) Φ(X) Φ(X) O X Φ(Ο) Φ(X) O Kernel K (x, y) = < φ(x), φ(y) > SVM non linéaire: ŷ = α i K (x i, x) + b i SV kernel trick utilisé dans de nombreux modèles, comme l ACP, l Analyse Discriminante, la régression PLS,... peut s appliquer aux cas où l on ne dispose pas de représentation vectorielle des exemples (chaînes de symboles, arbres, graphes...) E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 55 / 69

Définir des noyaux Condition d admissibilité symétrique: k(x, y) = k(y, x) semi-définie positive: c i c j k(x i, x j ) 0 On peut construire des noyaux à partir d autres noyaux: combinaison: k(x, y) = w α k α (x, y), w α 0 composition: k(x, y) = D k d (x d, y d ) (Haussler 1999) d=1 Exemples: noyaux pour séquences, arbres, graphes Exemple simple: noyau sur arbres t t c 0 c 1 c 2 c 0 c 1 k(t, t ) = 2 1 k c (c i, c j ) i=0 j=0 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 56 / 69

Définir des noyaux Condition d admissibilité symétrique: k(x, y) = k(y, x) semi-définie positive: c i c j k(x i, x j ) 0 On peut construire des noyaux à partir d autres noyaux: combinaison: k(x, y) = w α k α (x, y), w α 0 composition: k(x, y) = D k d (x d, y d ) (Haussler 1999) d=1 Exemples: noyaux pour séquences, arbres, graphes Exemple simple: noyau sur arbres t t c 0 c 1 c 2 c 0 c 1 k(t, t ) = 2 1 k c (c i, c j ) i=0 j=0 E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 56 / 69

Apprentissage à base de noyaux pour la catégorisation de nœuds Rappel: condition d admissibilité K semi-définie positive: f x, f x f x K (x, x ) 0 x x Suivant l approche d Haussler (1999), on peut écrire: e βh = lim n (1 + βh n )n (1) = I + βh + β2 2! H2 + (2) H auto-adjoint K = e βh semi-définie positive. Le paramètre β contrôle la localité du noyau obtenu (diffusion sur le graphe). E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 57 / 69

Noyau de diffusion 1 si i j Laplacien du graphe: L = D A, soit L = d i si i = j 0 sinon Le Laplacien se retrouve souvent en analyse spectrale des graphes. Remarque: t w, w T Hw = Ψ = µ Ψ : équation de la chaleur Si K = e βh, on a d dβ K β = LK β & Lafferty 2002). (i,j) E (w i w j ) 2 : équation de la chaleur sur le graphe (Kondor K β (i, j) can be seen as the energy injected in i received in j, with diffusion parameter β E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 58 / 69

Noyau de diffusion: mise en œuvre K (0) = I ( K (β) = lim I + βl ) s s s Problème: K est une matrice dense, même si L est sparse. utilisation impossible sur de très grands graphes Mais résultats intéressants: exemple jeux de données WebKB : - 8275 pages webs, 7 classes ( universités) - de 8 à 15% d erreur en ignorant le texte des pages! Applications possibles en transductif (suggéré par Gärtner et Smola 2007). E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 59 / 69

Conclusions L analyse des réseaux sociaux pose de nouveaux défis pour la fouille de données: échantillons non iid, structure, grands volumes, évolution... Les nouvelles applications industrielles (Telco, Web 2.0,...) produisent d énormes volumes de données en réseau, avec une forte valeur potentielle Nombreuses recherches, nouvelles méthodes et algorithmes. Aujourd hui Évolution des communautés: J.-L. Guillaume Outils industriels: F. Soulié-Fogelman Analyse des données d un grand site social : R. Kirche Apprentissage et inférence: L. Denoyer E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 60 / 69

Références principales (1) Ouvrages généraux Albert-Laszlo Barabasi. Linked. Perseus Publishing, 2002. Nicholas A. Christakis and James H. Fowler. Connected: The Surprising Power of Our Social Networks and How They Shape Our Lives. Little, Brown and Company, 2009. Chris Anderson. The Long Tail. Random House Business, 2006. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 61 / 69

Références principales (2) Recherche de communautés M. E. J. Newman. Modularity and community structure in networks. PNAS, 103(23):8577 8582, June 2006. Luciano da F. Costa, Francisco A. Rodrigues, Gonzalo Travieso, and P. R. Villas Boas. Characterization of complex networks: A survey of measurements. Advances in Physics, 56(1):167 242, January 2007. Santo Fortunato. Community detection in graphs. Physics Reports, Jun 2010. V.D. Blondel, J.L. Guillaume, R. Lambiotte, and E.L.J.S. Mech. Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, P10008:1742 5468, 2008. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 62 / 69

Références principales (3) Graphes et apprentissage Jure Leskovec. Dynamics of large networks. PhD thesis, Carnegie Mellon University, September 2008. Diane J. Cook and Lawrence B. Holder. Mining Graph Data. John Wiley & Sons, 2006. Nello Cristianini and John Shawe-Taylor. An introduction to support vector machines : and other kernel-based learning methods. Cambridge University Press, March 2000. E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 63 / 69

Merci de votre attention! Ce travail a été partiellement financé par l ANR (projets CADI 2007 TLOG 003, Ex DEUSS 2009 CORD 010), par la DGCIS (projet CEDRES 09 2 93 0762) et par le pôle Cap Digital E. Viennet (L2TI) Analyse des réseaux sociaux 16/02/2010 64 / 69