GRI. Fonctionnement du cours. Introduction Contexte. Mesure

Documents pareils
COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Towards realistic modeling of IP-level topology dynamics

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Introduction au maillage pour le calcul scientifique

Ebauche Rapport finale

Parallélisme et Répartition

Intégrer mesure, métrologie et analyse pour l étude des graphes de terrain dynamiques

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

TP N 57. Déploiement et renouvellement d une constellation de satellites

I. Cas de l équiprobabilité

Big Data et Graphes : Quelques pistes de recherche

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Big Data et Graphes : Quelques pistes de recherche

MIS 102 Initiation à l Informatique

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Stockage de chaleur solaire par sorption : Analyse et contrôle du système à partir de sa simulation dynamique

Clément Prudhomme, Emilie Lenel

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Chapitre 5 : Flot maximal dans un graphe

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Technologie SDS (Software-Defined Storage) de DataCore

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Évaluation d une architecture de stockage RDF distribuée

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Modélisation multi-agents - Agents réactifs

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Structure fonctionnelle d un SGBD

Cours d algorithmique pour la classe de 2nde

Hypervision et pilotage temps réel des réseaux IP/MPLS

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Introduire un nouveau type de maille ou un nouvel élément de référence

D r o i t s D r o i t s Q u i z z : i n t e r n e t t e x t e

Programmation parallèle et distribuée

Outils pour la pratique

La nouvelle planification de l échantillonnage

Le e s tocka k ge g DAS,NAS,SAN

Initiation à l algorithmique

Les offres Very Connect

Figure 3.1- Lancement du Gambit

Contributions à l expérimentation sur les systèmes distribués de grande taille

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

Calcul intégral élémentaire en plusieurs variables

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

CESI Bases de données

Rappel sur les bases de données

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Plan. Programmation Internet Cours 3. Organismes de standardisation

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Les modules SI5 et PPE2

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Quatrième partie IV. Test. Test 15 février / 71

Partie 1. La structure des réseaux sociaux

TP Protocoles SMTP et POP3 avec Pratiquer l algorithmique

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Séquencer une application

«clustering» et «load balancing» avec Zope et ZEO

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant

L exclusion mutuelle distribuée

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Introduction à la théorie des graphes. Solutions des exercices

2 État de l art. Topologie Virtuelle pour Réseaux Hybrides

La continuité de service

pka D UN INDICATEUR COLORE

Cours des réseaux Informatiques ( )

DOCM Solutions officielles = n 2 10.

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Annexe commune aux séries ES, L et S : boîtes et quantiles

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

PROBABILITES ET STATISTIQUE I&II

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Term Professionnelle Micro informatique & Réseaux Installation et Maintenance Lycée Saint Joseph Vannes

1.Introduction - Modèle en couches - OSI TCP/IP

Introduction aux Technologies de l Internet

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Programmation par contraintes. Laurent Beaudou

Un radar pour Internet

La médiatrice d un segment

Déploiement générique d applications sur plates-formes hétérogènes distribuées

Dynamiques des réseaux sociaux en ligne

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

Référencement Naturel ou SEO Search Engine Optimization

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

OpenLDAP : retour d expérience sur l industrialisation d annuaires critiques

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Maîtrise universitaire ès sciences en mathématiques

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

Programmation Linéaire - Cours 1

Cryptographie. Cours 3/8 - Chiffrement asymétrique

INTRODUCTION AU DATA MINING

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Generic deployment of applications on heterogeneous distributed platforms

Master of Science en mathématiques

Chapitre 4 : Exclusion mutuelle

Transcription:

GRI Heger Arfaoui Clémence Magnien Fonctionnement du cours Enseignants nom et mail Page web du cours : http://www-rp.lip6.fr/~magnien/gri/ Fonctionnement par blocs de deux semaines : er mercredi, 4h-6h : cours er mercredi, 6h-8h : TP e mercredi : TP À la fin de chaque TP (sauf le TP 0), défi à rendre le mardi précédent le cours suivant. Introduction Contexte Grands réseaux d interactions/graphes de terrain : graphes issus de contextes réels. Exemples : Graphes du web Topologies de l internet Réseaux sociaux Réseaux biologiques Applications de l étude de ces graphes : simulations de protocoles sur l internet recommandations sur un site d achat Réseaux sociaux en ligne moteurs de recherche web Bien comprendre la structure de ces graphes soulève plusieurs questions : Mesure (acquérir l information) Analyse (décrire le graphe) Modélisation (générer un graphe ressemblant à un graphe donné) Algorithmique (arriver à traiter de très gros graphes, nouvelles questions) Mesure Acquérir l information sur les nœuds et les liens du graphe. Web : Crawl à partir d une ou plusieurs pages web Internet : mesures avec traceroute Réseaux sociaux : sondages

Analyse Les graphes qu on traite sont très gros, besoin de notions et de descripteurs pour pouvoir dire : si tous les nœuds se ressemblent s il y a des groupes de nœuds fortement reliés les uns aux autres Modélisation Générer des graphes aléatoires qui ressemblent à un graphe donné. Utile pour : Simulations de protocoles (sur un graphe deux fois plus gros,...) Comprendre les phénomènes observés Algorithmique Les graphes qu on traite sont très gros, donc il y a besoin de nouvelles méthodes pour calculer des notions classiques en temps raisonnable (distance moyenne, diamètre par exemple). Des nouvelles questions se posent aussi dans ce contexte, comme par exemple le calcul de communautés (groupes de nœuds fortement reliés les uns aux autres). Dans ce cours, on parlera beaucoup d algorithmique, appliquée à l analyse et à la modélisation. Graphes Définitions Un graphe G = (V, E) est un couple d ensembles. V est l ensemble des sommets (ou nœuds) E (V V ) est l ensemble des arêtes (ou liens). Exemples. Attention à ne pas confondre un graphe et un dessin de ce graphe. On note n = V le nombre de sommets et m = E le nombre d arêtes. Deux sommets u et v sont voisins s il y a une arêtre entre u et v. Le degré d un sommet v, noté d (v), est son nombre de voisins. Le degré moyen du graphe est la moyenne du degré sur tous les sommets : d (G) = d (v) = m n n. v V La densité d un graphe est le nombre d arêtes comparé au nombre d arêtes possibles entre toutes les paires de sommets : δ(g) = m n(n ) = d (G) n. Le graphe est orienté si on considère que (u, v) est différent de (v, u). Notion de degré entrant et degré sortant.

Stockage en mémoire Deux façons principales de stocker un graphe en mémoire : matrice d adjacence listes d adjacence Exemples. Avantages et inconvénients : temps pour savoir si un lien existe, pour calculer le degré d un nœud. Taille des deux représentations. En pratique, nos graphes sont peu denses (m O(n)). Propriétés communes Distributions homogènes vs hétérogènes Si on a un ensemble de valeurs v, v,... v N, la distribution de ces valeurs est la courbe : nombre de valeurs qui valent k en fonction de k. Exemple Valeurs :, 5, 3,,,, 4,, 5 3 3 4 5 En pratique, on a deux grandes familles de distributions : les distributions homogènes sont bien centrées autour de la moyenne (exemple : taille des gens) les distributions hétérogènes ont beaucoup de petites valeurs, quelques très grandes valeurs, et tous les comportements entre les deux (exemple : salaires). Les distributions hétérogènes ressemblent souvent à des lois de puissances : y x α droites en échelle log-log. Dans les distributions homogènes, la moyenne est représentative : la plupart des valeurs sont proches de la moyenne. Dans les distributions hétérogènes, la moyenne n est pas représentative : la plupart des valeurs sont au-dessous de la moyenne, et quelques unes sont très au-dessus de la moyenne. Distribution des degrés Dans les graphes issus de contextes réels, la distribution des degrés est la plupart du temps hétérogène le degré moyen n est pas représentatif. 3

Coefficient de clustering - définitions et calcul Clustering : lié aux triangles Proba que deux nœuds soient reliés s ils ont un voisin en commun Intuitivement, cela correspond à l adage : les amis de mes amis sont mes amis. Calculer le coefficient de clustering d un graphe permet de savoir à quel point c est le cas pour un graphe donné. Coefficient de clustering local Soit un sommet v, son coefficient de clustering est égal au nombre d arêtes entre ses voisins, divisé par le nombre d arêtes total qu il pourrait y avoir. Si on note N(v) les voisins de v et E(N(v)) = {(u, u ) E, u, u N(v)}, alors lcc(v) = Proche de la notion de densité. E(N(v)) d (v)(d (v) ). Le coefficient de clustering local d un graphe G, noté lcc(g), est la moyenne du coefficient de clustering de tous les sommets qui ont un degré supérieur ou égal à. Coefficient de clustering global gcc(g) = 3N N, où N est le nombre de triangles dans le graphe, et N le nombre de triplets connexes (trois sommets et au moins deux arêtes). Probabilité que quand deux sommets ont un voisin en commun, le troisième lien existe. En pratique, les deux coefficients de clustering sont forts pour les graphes de terrain : plusieurs ordres de grandeur au dessus de la densité. Calcul de la distance moyenne d(u, v) : distance entre les nœuds u et v. Distance moyenne : moyenne de d(u, v) sur toutes les paires de sommets (u, v) telles que u v (en pratique, la distribution de la distance est homogène, donc étudier la distance moyenne a du sens). En pratique, la distance moyenne n a de sens que si le graphe est connexe on se restreint à la plus grande composante connexe. Complexité : un parcours en largeur : O(m) distances de tout le monde vers tout le monde : n parcours en largeur O(nm). 4

Outils unix et format des données Valables quand la quantité de données n est pas trop grosse. Bien pour vérifier les résultats d un programme. Format des données : lignes du type n n qui indiquent qu il y a un lien entre les nœuds n et n. Si le graphe est orienté, la ligne indique qu il y a un lien de n vers n. Nombre de liens wc -l graph.data cat graph.data wc -l (Différences mineures dans la sortie) Trouver les voisins (sortants) d un nœud grep graph.data (sans l espace ne marche pas) Degré sortant d un nœud grep graph.data wc -l Degré entrant d un nœud grep $ graph.data wc -l Degré d un nœud dans un graphe non orienté awk {if (($ == ) ($ == )) print $0;} graph.data wc -l Nombre de nœuds cat graph.data tr \n sort -n tail -n awk {print $+} Plus rapide : sort -nu Variante du degré d un nœud (pas efficace) cat graph.data tr \n sort uniq -c grep 5