Introduction à l Analyse des Réseaux Sociaux Erick Stattner Laboratoire LAMIA Université des Antilles et de la Guyane, France erick.stattner@univ-ag.fr Guadeloupe, Novembre 2012 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 1 / 50
Émergence des réseaux sociaux Qu est ce qu un réseau social? Erick Stattner Introduction à l Analyse des Réseaux Sociaux 2 / 50
Émergence des réseaux sociaux Intérêt croissant pour les réseaux sociaux: Pourquoi? Analogie avec l évolution du WEB Site WEB Blog Site communautaire Aujourd hui, implication des liens sociaux dans de nombreux phénomènes: Problème de diffusion (rumeur, maladie, etc.) Phénomène d achat (lien social > attributs démographiques) Phénomène d influence (lien social peut déterminer un comportement) Les réseaux devenus un "truisme" [Barabasi2009] Le réseau internet, réseaux d amitié, réseaux d appels téléphoniques, réseaux de collaboration, etc. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 3 / 50
Émergence des réseaux sociaux Du web des contenus au web des utilisateurs? (a) (b) Erick Stattner Introduction à l Analyse des Réseaux Sociaux 4 / 50
Émergence des réseaux sociaux Vers une escalade de la collecte de données sociales Les données sociales sont collectées partout: Site communautaire (facebook, google+, etc.) Site de e-commerce (amazon, fnac, etc.) Vie de tous les jours (proximité géo., communautés, etc.) Pour aller plus loin dans la compréhension des phénomènes sociaux Besoin de données adaptées à l extraction des liens sociaux pertinents Besoin de méthodes efficientes pour modéliser et analyser ces réseaux Besoin de modèles efficaces Erick Stattner Introduction à l Analyse des Réseaux Sociaux 5 / 50
Outline 1 2 3 4 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 6 / 50
: Problème des 7 ponts de Königsberg "Peut-on trouver, à partir d un point donné, une promenade permettant de traverser chaque pont une et une seule fois et permettant de revenir à ce point?" Erick Stattner Introduction à l Analyse des Réseaux Sociaux 7 / 50
: Solution par la représentation sous forme de graphe Proposée par Euleur [Euler1741] A C B D C Rivière Point terrestre Pont A B D (c) (d) Euler montre qu un tel chemin n existe que si les sommets ont un nombre pair de liaisons Pose les bases de la théorie des graphes actuelle Erick Stattner Introduction à l Analyse des Réseaux Sociaux 8 / 50
: Application de la théorie des graphes: L attribution de ressources communes Flux dans les réseaux (liquide, transaction, etc.) Problème de maximisation/minimisation Erick Stattner Introduction à l Analyse des Réseaux Sociaux 9 / 50
Les réseaux aujourd hui: Modélisation par un graphe Un noeud représente une entité sociale (Homme, animaux, machine, cellule, etc.) Un lien représente une interaction sociale (amitié, intérêt commun, relation intimé, professionnelles, etc.) Ex. Réseau Internet, réseau de collaboration, réseau de relation intime, etc. Nouveau paradigme: Nouveau domaine d étude la "" L étude se concentre sur les relations entre acteurs davantage que sur leurs attributs. Plus d hypothèse de données IID (Indépendantes et Identiquement Distribuées) Erick Stattner Introduction à l Analyse des Réseaux Sociaux 10 / 50
Réseau et processus supportés: Phénomène d achat = Réseau d influence Transmission d une maladie infectieuse = Réseau de contacts de proximité Diffusion d une rumeur = Réseau d amitiés Communautés d individus = Réseau d intérêts communs Erick Stattner Introduction à l Analyse des Réseaux Sociaux 11 / 50
Réseaux traditionnellement représentés par un graphe Un réseau social est un graphe G = (V,E) V : Ensemble des noeuds E: Ensemble des liens tel que E V V V Nombre de noeuds dans le réseau E Nombre de liens Si e = (v i,v j ) E, on dit que les noeuds v i et v j sont liés, connectés, en relation, etc. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 12 / 50
Différents types de réseaux: Unipartis/Multipartis 1. 1. 3. 2. x. 2. y. 4. (e) 5. 3. (f) Ex. Réseau d amitié / Réseau d achat client-produit Erick Stattner Introduction à l Analyse des Réseaux Sociaux 13 / 50
Différents types de réseaux: Orientés/Non-Orientés: 1. 1. 2. 2. 3. 3. 4. 5. 4. 5. (g) (h) Ex. Réseau de collaboration / Réseau d appels téléphoniques Erick Stattner Introduction à l Analyse des Réseaux Sociaux 14 / 50
Différents types de réseaux: Avec contenu: Ex. Réseau d intérêts communs Erick Stattner Introduction à l Analyse des Réseaux Sociaux 15 / 50
Différents types de réseaux: Avec structure relationnelle complexe: Ex. Réseau de relations professionnelles Erick Stattner Introduction à l Analyse des Réseaux Sociaux 16 / 50
Différents types de réseaux: Avec dynamique importante Réseau de contacts de proximité géographique Erick Stattner Introduction à l Analyse des Réseaux Sociaux 17 / 50
Évidemment, toutes ces propriétés sont non exclusives! Implications pour l étude des réseaux Besoin de méthodes: flexibles "scalables" qui tiennent compte de toutes les informations: structure et contenu Erick Stattner Introduction à l Analyse des Réseaux Sociaux 18 / 50
Deux grandes familles de méthodes d analyse: Méthodes traditionnelles: Mesures Locales: Caractérisent localement un noeud ou un groupe de noeuds Mesures globales: Apportent une information sur l ensemble de la structure Fouille de réseaux sociaux Applique les concepts du data mining aux réseaux Classification, clustering, recherche de motifs fréquents, etc. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 19 / 50
Analyse traditionnelle: Mesures locales Degré k vi d un noeud v i : Nombre de liaisons du noeud v i, i.e. k vi = {e E;e = (v i,v j ) E} Degré de centralité: Degré de v i, normalisé par le nombre de liaisons possibles, i.e. W vi = k v i V 1 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 20 / 50
Analyse traditionnelle: Mesures locales Noeud avec beaucoup de liens considéré comme important Un acteur central Exemples d applications Réseaux de communication: identifier les noeuds critiques Moteur de recherche: ordonnancer les pages par popularité Ex. Algorithme PageRank proposé par Google. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 21 / 50
Analyse traditionnelle: Mesures locales De nombreuses autres mesures locales: Coefficient de clustering Distance moyenne Degré de centralité Centralité d intermédiarité Centralité de proximité Prestige etc. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 22 / 50
Analyse traditionnelle: Mesures globales Densité p d un réseau G Nombre de liens, normalisé par le nombre de liens total: 2 E p = V ( V 1) Degré moyen K Moyenne des degrés des noeuds: K = 1 V k v i Distribution des degrés P(k) Probabilité qu un noeud, choisi aléatoirement, ait un degré de k. P(k) = v i V;k vi = k V Erick Stattner Introduction à l Analyse des Réseaux Sociaux 23 / 50
Analyse traditionnelle: Mesures globales Exemple d applications Caractériser les réseaux Marketing virale Comprendre l évolution d un phénomène Études célèbres Etude menée par Elizabeth Both [Bott1957] Expérience de Milgram [Milgram1967] Erick Stattner Introduction à l Analyse des Réseaux Sociaux 24 / 50
Analyse traditionnelle: Mesures globales Autres mesures globales Composantes connexes Distance moyenne Diamètre Coefficient de clustering moyen etc. Erick Stattner Introduction à l Analyse des Réseaux Sociaux 25 / 50
Fouille de réseaux sociaux Social network mining/link mining "l ensemble des techniques de data mining qui considèrent explicitement les liens lors de la construction de modèles descriptifs ou prédictifs à partir de données relationnelles" [Getoor2005] S intéresse aux principales taches d extraction de connaissances Classification Clustering Recherche de motifs fréquents Erick Stattner Introduction à l Analyse des Réseaux Sociaux 26 / 50
Fouille de réseaux sociaux: Classification Affecter à chaque noeud du réseau une classe Erick Stattner Introduction à l Analyse des Réseaux Sociaux 27 / 50
Fouille de réseaux sociaux: Clustering Identifier les communautés dans un réseau Erick Stattner Introduction à l Analyse des Réseaux Sociaux 28 / 50
Fouille de réseaux sociaux: Recherche de motifs fréquents Rechercher les sous-graphes fréquents dans les réseaux Erick Stattner Introduction à l Analyse des Réseaux Sociaux 29 / 50
Outline Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free 1 2 Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free 3 4 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 30 / 50
Présentation Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free 4 grands types de structure Réseau régulier Réseau aléatoire Réseau petit monde Réseau scale-free (i) (j) (k) (l) Erick Stattner Introduction à l Analyse des Réseaux Sociaux 31 / 50
Réseaux réguliers Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free Réseau régulier: Noeud: nombre identique de liens Densité faible Coefficient de clustering élevé Distribution des degrés marquée par un pic (m) (n) Modèle de génération: basé sur la disposition autour d un cercle Erick Stattner Introduction à l Analyse des Réseaux Sociaux 32 / 50
Réseaux aléatoires Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free Réseau aléatoire: Existence d un lien: Résultat d un processus aléatoire Distance moyenne faible Distribution des degrés suit une loi de poisson (o) (p) Modèle de génération: Modèle Erdos-Renyi Erick Stattner Introduction à l Analyse des Réseaux Sociaux 33 / 50
Réseaux petit-monde Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free Réseau petit-monde: Notion populaire: 7 degrés de séparation [Milgram1967] Distance moyenne très courte Coefficient de clustering élevé (q) (r) Modèle de génération: Modèle Watts et Strogatz Erick Stattner Introduction à l Analyse des Réseaux Sociaux 34 / 50
Réseaux scale-free Réseaux réguliers Réseaux aléatoires Réseaux petit-monde Réseaux scale-free Réseaux scale-free: Découvert par Barabasi en 1999 Distribution des degrés suit une loi de puissance (s) (t) Modèle de génération: Modèle Barabi-Albert Basé sur l attachement préférentiel, p j = k j k m Erick Stattner Introduction à l Analyse des Réseaux Sociaux 35 / 50
Outline Introduction Percolation Diffusion 1 2 3 Introduction Percolation Diffusion 4 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 36 / 50
Introduction Introduction Percolation Diffusion Introduction: Propagation: phénomènes ayant comme support un réseau Ex. Maladie, la rumeur, information, mode, etc. Les modèles basés sur les réseaux sont de plus en plus utilisés pour étudier ces phénomènes Approches réseau: Objectif: Ne s intéresse pas aux aspects biologiques Comprendre les mécanismes de transmission "Study of the dynamics of how transmission occur in a population, resulting in an epidemic". [De,2008] Erick Stattner Introduction à l Analyse des Réseaux Sociaux 37 / 50
Introduction Introduction Percolation Diffusion Deux types de problèmes: Percolation: La structure permet-elle l émergence du phénomène? Diffusion: Comment évolue le phénomène? Erick Stattner Introduction à l Analyse des Réseaux Sociaux 38 / 50
Percolation Introduction Percolation Diffusion Origine: Intérêt: Introduite en 1957 par Broadbent Comprendre comment les masques à gaz devenaient inefficaces Masque à gaz: composé de particules de carbone poreuses qui crée un réseau Si les pores sont trop petits, le gaz ne traverse pas Si les pores sont trop larges, le gaz traverse Permet de mettre en évidence des seuils critiques à partir desquels une transition de phase est observée i.e. Seuil à partir duquel la structure change brutalement d état Erick Stattner Introduction à l Analyse des Réseaux Sociaux 39 / 50
Percolation Introduction Percolation Diffusion Exemples de problème de percolation: La densité du café Des iles aux continents Erick Stattner Introduction à l Analyse des Réseaux Sociaux 40 / 50
Percolation Introduction Percolation Diffusion Percolation dans les réseaux de communication: Seuil de paramètres critiques qui garantissent la connexité de la structure Ou la présence d une composante principale (u) (v) (w) Erick Stattner Introduction à l Analyse des Réseaux Sociaux 41 / 50
Percolation Introduction Percolation Diffusion Attaque sur le réseaux de communication: Quel pourcentage de noeuds faut-il attaquer pour déconnecter un réseau scale-free? [Cohen2000] Attaque aléatoire très difficile Attaque ciblée environ 3% Erick Stattner Introduction à l Analyse des Réseaux Sociaux 42 / 50
Diffusion Introduction Percolation Diffusion Compartment Models: First mathematical models Assume: Population can be divided into a set of compartments (Susceptible (S), Infected (I), Recover (R),...) Uniform mixing of individuals into compartments Standards models: S α α β α α β I S I R S I S I R β SI Model SIR Model SIS Model SIRS Model λ Erick Stattner Introduction à l Analyse des Réseaux Sociaux 43 / 50
Diffusion Introduction Percolation Diffusion Compartment models: Simple and Deterministic Moreover, assumption of uniform mixing is unrealistic Does not reflect : Real mechanisms of dissemination Complexity of human interaction Erick Stattner Introduction à l Analyse des Réseaux Sociaux 44 / 50
Diffusion Introduction Percolation Diffusion Network Models: First use in 1985 by Klovdahl on AIDS Represent entities and their relations Based on the idea that structure and nature of network are main factors of outbreak and dissemination (e.g. Sexual network) Assume: Each individual has a state (S, I,...) Disease spreads through links the individuals maintain Individuals are infected with a certain probability Erick Stattner Introduction à l Analyse des Réseaux Sociaux 45 / 50
Diffusion Introduction Percolation Diffusion Network Models : Example of an Infection scenario: Erick Stattner Introduction à l Analyse des Réseaux Sociaux 46 / 50
Diffusion Introduction Percolation Diffusion Network Models: More realistic: no uniform mixing Suitable to represent dynamics of real human contacts Allow modeling relationships of different nature (intimate, professional, geographical,...) Erick Stattner Introduction à l Analyse des Réseaux Sociaux 47 / 50
Diffusion Introduction Percolation Diffusion Erick Stattner Introduction à l Analyse des Réseaux Sociaux 48 / 50
Outline 1 2 3 4 Erick Stattner Introduction à l Analyse des Réseaux Sociaux 49 / 50
: Les réseaux: nouvelle approche pour étudier de nombreux phénomènes Phénomènes de diffusion Fouille de données: classification, clustering, etc. Applications: Identification des acteurs centraux d un système Mise en place de stratégie de marketing virale Solution visant à minimiser/maximiser la diffusion Extraire de la connaissance des réseaux Erick Stattner Introduction à l Analyse des Réseaux Sociaux 50 / 50