Graphes petits mondes

Documents pareils
COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Resolution limit in community detection

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Partie 1. La structure des réseaux sociaux

Big Data et Graphes : Quelques pistes de recherche

Optimisation for Cloud Computing and Big Data

Big Data et Graphes : Quelques pistes de recherche

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Apprentissage statistique dans les graphes et les réseaux sociaux

Ebauche Rapport finale

Intégration de la dimension sémantique dans les réseaux sociaux

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Jean-Philippe Préaux

Cours de Master Recherche

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Modélisation multi-agents - Agents réactifs

Technologie SDS (Software-Defined Storage) de DataCore

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Conception et contrôle des SMA tolérants aux fautes

Chapitre 7. Récurrences

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

Chapitre 3 : INFERENCE

FaceBook aime les Maths!

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Algorithmes récursifs

Correction du baccalauréat ES/L Métropole 20 juin 2014

Parallélisme et Répartition

Cours de méthodes de scoring

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

données en connaissance et en actions?

IFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours

Méthodes d évolution de modèle produit dans les systèmes du type PLM

4.2 Unités d enseignement du M1

Introduction à la théorie des graphes. Solutions des exercices

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

SEO Campus 2009 : Pagerank et optimisation

Algorithmes de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

MIS 102 Initiation à l Informatique

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Modélisation et Simulation

Contrainte de flot pour RCPSP avec temps de transfert

D UN BON REFERENCEMENT

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Formation GISEH Module rédacteur 7, 9 juin 5, 12 juillet 2011

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

La classification automatique de données quantitatives

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Pair-à-Pair: Architectures et Services

2 État de l art. Topologie Virtuelle pour Réseaux Hybrides

Évaluation d une architecture de stockage RDF distribuée

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Contributions à l amélioration de l utilisation des ressources dans les réseaux de paquets sans fil

Techniques d ordonnancement pour les SoC

DEMANDE D INFORMATION RFI (Request for information)

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Réseaux grande distance

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Référencement naturel & E-tourisme. Pau 02/10/2008

Caractéristiques et débits de votre ligne ADSL

Efficacité énergétique des réseaux de cœur et d accès

Conception d'un réseau de transport d'électricité

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Benchmark. Community Management d agences de communication

N.B. Cette thèse a été financée par France Télécom Division R&D et préparée au sein de France Télécom Division R&D en collaboration avec le LRI.

Pourquoi l apprentissage?

Rétablissement d un réseau cellulaire après un désastre

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Rencontre sur la thématique du Calcul Haute Performance - 13 juin Better Match, Faster Innovation

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Figure 3.1- Lancement du Gambit

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Introduction aux algorithmes répartis

Simulation de variables aléatoires

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Agence web en Suisse romande CH-1260 Nyon

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Programmation parallèle et distribuée

Quelques Algorithmes simples

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

MATH ELEMENTS DU CALCUL DES PROBABILITES

Texte Agrégation limitée par diffusion interne

Comment créer des rapports de test professionnels sous LabVIEW? NIDays 2002

Cours Optimisation Partie Optimisation Combinatoire. Année scolaire Gérard Verfaillie ONERA/DCSD/CD, Toulouse

Transcription:

Graphes petits mondes Nicolas Hanusse Chercheur CNRS au LaBRI hanusse@labri.fr

Objectifs Caractériser les données les plus fréquemment rencontrées En partant de données réelles En proposant de bons «modèles» Naviguer visuellement dans les masses de données: Recherche d information Fouille de données Exploration

Plan Exemples de quelques graphes et problèmes issus de la réalité; Modèles de graphes «petits-mondes»: Approche statistique; Approche routage. Applications; Problèmes de recherche.

Quel est le rapport entre Graphe du Web? Réseaux sociaux: collaborations scientifiques Erdös Number; Hollywood graph. Réseaux d intéractions: protéïne-protéïne; Réseaux de transport aériens; Ontologies lexicales et sémantiques;

Graphe du Web Graphe du web: Nœuds = page web Arcs = liens hypertexte Obtenu par un crawl de 2 millions de nœuds. Résultats: Forme en «nœud papillon»; Diamètre estimé à 20.

Graphe des collaborations scientifiques Graphe des citations: Noeud = article; Lien = référence d un article vers un autre. Statistiques sur les degrés: Majorité d article ont très peu de citations: 633,391 sur 783,339 articles ont moins de 10 citations; En moyenne, un article est cité moins de 2 fois. Existence d articles trés populaires: 64 articles ont plus de 1000 citations; 1 article a 8907 citations.

Réseaux sociaux: L expérience de Milgram - 1967 Du Nebraska à Boston Pourquoi le routage glouton estil efficace?

Distribution des distances

Ce sont tous des graphes petits mondes! Pas de définition précise mais existence de nombreux courts chemins.

Caractérisation des petits mondes Statistiques sur des paramètres de graphes: Petit diamètre; Densité locale forte; Densité globale faible = degré moyen faible; Distribution des degrés: hétérogène ou homogène; Algorithmique: on peut router facilement et rapidement dans un petit monde.

Le monde réel est-il aléatoire? Non! Pouvons-nous identifier des structures communes dans les données issues du monde réel?

Réalité versus Aléatoire Les graphes réels ont tendance à être creux Graphe aléatoire creux contiennent peu de motifs ou structures. Graphes réels comportent de nombreux courts chemins: Comme les graphes aléatoires Graphes réels sont localement denses Contrairement aux graphes aléatoires creux. d: degré moyen faible L: longueur moyenne faible D: diamêtre petit C: coefficient de regroupement (fraction des voisins connectés entre eux)

Le modèle de graphe aléatoire G n,p Graphe à n sommets; Pour toute paire de sommets (i,j): On met une arête avec probabilité p. Comportement «moyen»: Environ m = np arêtes; Si p/n = o(log n), graphe non connexe;

Densité locale Coefficient de regroupement C d u = degré sommet u C(u) = C=0 C=1/2 C=1 Grosso-modo, C estime une proportion de triangles (on peut proposer des variantes).

Comportement asymptotique = =

Comparaison entre mesures et modèle G n,p Réseaux L mesurée L - G n,p C mes. C - G n,p n WWW 3.1 3.35 0.11 0.00023 153127 Hollywood 3.65 2.99 0.79 0.00027 225226 Electrique 18.7 12.4 0.08 0.005 4014 C. Elegans 2.65 2.25 0.28 0.05 282 G n,p n est pas un bon de modèle de graphe petit-monde (coef C trop faible)

Distribution des degrés P(k) hétérogène homogène k homogène: comme dans G n,p, - loi de poisson (concentré autour de la moyenne) Hétérogène: loi en puissance Prob(d u = k) 1/k avec [2,3]

Réseaux hétérogènes (sans échelle)!" & #$% '!#(

Corrélation degré et dégrés du voisinage: assortativité Degré moyen de mes voisins arêtes pondérés Assortativité du graphe # # "!

Assortativité Comportement assortatif: k nn (k) croissant Exemple : réseaux sociaux (popularité) Gros sites reliés aux gros sites. Comportement non-assortatif: k nn (k) décroissant Exemple: Internet Gros sites reliés à des petits sites structure hiérarchique

Autres paramètres à étudier Excentricité du sommet: distance du sommet le plus éloigné Centralité d un sommet: distance moyenne aux autres sommets. «Betweenness»: nombre de plus courts chemins passant par une arête. Paramètres importants pour des heuristiques de partitionnement!

Communités dans les petits mondes Partionnement +/- naturel Communauté idéale: clique (C=1) En pratique, une communauté C i,j nommée «core» contient des petits graphes bipartis complets K i,j : i sortants «fans»; j entrants «centers»; www.lequipe.fr www.fft.fr www.atptour.com K 5,3

Petits cores bipartis $ % &'()*&)&+, -./ 0 -%-

Quelques modèles de graphes petits mondes Différents modèles de graphes aléatoires: Redirection d arêtes; Graphes augmentés; Graphes évolutifs; Ad-hoc: distribution de degrés fixés (par exemple, selon loi en puissance), arbres de cliques,

Redirection d arêtes. /0&1!&2. '!&'.!!3 "!) * ++, *-

Relation longueur moyenne L et coefficient de regroupement C

Dépendance par rapport à la taille!" $ $1 ' 4, *5" $' 4+ "!6 $7+89

Observations importantes 6:; """;///! 2;/< 6:; """;!=/ 2**>#??*5>@( 2;/ = A = &

Modèle évolutif probabiliste Graphe germe Attachement préférentiel des nouveaux noeuds aux anciens selon les degrés. Prob(attach au noeud j) proportionel au degré du noeud j Prob(degree = k) = a/k 3

En partant d une distribution des degrés ayant une loi en puissance en plaçant en spirale en commençant par les nœuds de plus fort degrés. Les Couleurs désignent la distance au sommet de plus fort degrés Obtention de petit diamètre

Graphe augmenté (G,L) graphe déterministe G + liens aléatoires L Kleinberg (D,s) : grille dim. D + Prob(L u =v) 1/dist(u,v) s routage glouton basé sur le voisinage (cf. Milgram)

Conséquences algorithmiques Le graphe est petit-monde et alors?

Conséquences algorithmiques Applications: Routage, recherche information; Partitionnement; Tolérance aux pannes; Diffusion d information, propagation d épidémie et rumeurs; Visualisation de petits-mondes. Contraintes: Algorithmique SIMPLE et UNIVERSEL dédié aux grandes masses de données; Temps: sub-quadratique requis; Espace mémoire: sub-quadratique requis.

Routage et Diamètre du graphe de Kleinberg Pour un graphe à n sommets et 1 lien longue distance par sommet. Mesure 0 s < D s = D D<s<2D s = 2D s > 2D Routage n log 2 n n n n Diamètre? log n log n log β n? n β Routage (Kleinberg) et Diamètre (Martel-NGuyen pour s=d et Duchon-Hanusse-Simonklein) Routage glouton efficace pour s=d; Rajouter des liens longue distance ne changent pas vraiment les résultats.

Robustesse 1 Les graphes petits-mondes préservent leur structure, propriétés même en présence d erreurs ou de pannes: cellules mutations; Internet pannes de routers; S 2%, 3 Fraction des noeuds supprimés, Noeuds en panne

Les cas des graphes sans-échelle Panne aléatoire f c =1 #2 2 < γ $% Attaque =panne progressive des noeuds de plus haut degrés & Internet R. Albert, H. Jeong, A.L. Barabasi, Nature 406 378 (2000)

Comparaison Pannes et Attaques Pannes S γ 3 : f c =1 &4*&) f c f Attaques

Autres stratégies d attaques Elimination de noeuds ou arêtes avec la plus grande centralité Noeuds ou arêtes avec la plus grande betweenness Cascades Cascades: élimination de sous-graphes...

Complexité pour le calcul de la centralité d un sommet centralité(i) = ) Calcul des plus courts chemins pour toute paire se fait en temps: O(n 3 ) ou O(nm+n 2 log n). Pour des graphes à plusieurs millions d éléments, même si m = O(1), trop long Et si on veut simplement approximer la centralité?

Approximer la centralité à un facteur 1+ε en temps O(m log n) Algorithme RAND: Soit k un nombre d itérations paramétrant l erreur de mesure; A l itération i, choisir au hasard un sommet v i et résoudre le problème du plus court chemin avec v i comme source; Cent(u) = = ) Eppstein et Wang, «Approximating Centrality» 2004

Et bien d autres pistes Recherche applicatives: Algorithmes de visualisation dédié aux petits-mondes Recherche d information: Image, vidéo: descripteurs = dimension (cf. modèle Kleinberg) Réseaux pairs à pairs Diffusion et/ou limitatation de virus, information Plus formellement: Petit-monde: beaucoup d intéractions locales + qq intéractions globale Peut-on transformer tout graphe en petit-monde avec peu de modifications