FaceBook aime les Maths!



Documents pareils
Analyse des réseaux sociaux

Resolution limit in community detection

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Chapitre 5 : Flot maximal dans un graphe

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

Partie 1. La structure des réseaux sociaux

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Plus courts chemins, programmation dynamique

Introduction au Data-Mining

Modélisation multi-agents - Agents réactifs

LES RESEAUX SOCIAUX MARDI 25 FEVRIER 2014

Intégration de la dimension sémantique dans les réseaux sociaux

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Résolution de systèmes linéaires par des méthodes directes

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

La classification automatique de données quantitatives

Eléments de Théorie des Graphes et Programmation Linéaire

BIG Data et R: opportunités et perspectives

Gestion de la relation Client (CRM)

QUI VEUT JOUER AVEC MOI?

Détection d utilisateurs malveillants dans les réseaux sociaux

Introduction à l approche bootstrap

Programmation linéaire

SEO Campus 2009 : Pagerank et optimisation

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

1 Recherche en table par balayage

Programmation linéaire

A propos de l enseignant Introduction aux réseaux sociaux

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Big Graph Data Forum Teratec 2013

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

TRAVAUX DE RECHERCHE DANS LE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Chapitre 7. Récurrences

Analyse en Composantes Principales

RI sociale : intégration de propriétés sociales dans un modèle de recherche

4 Exemples de problèmes MapReduce incrémentaux

Résolution d équations non linéaires

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Cryptologie. Algorithmes à clé publique. Jean-Marc Robert. Génie logiciel et des TI

Un radar pour Internet

Si la source se rapproche alors v<0 Donc λ- λo <0. La longueur d onde perçue est donc plus petite que si la source était immobile

La rencontre du Big Data et du Cloud

Introduction à la théorie des graphes. Solutions des exercices

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

Cours d Analyse. Fonctions de plusieurs variables

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Introduction au Data-Mining

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Cours 7 : Utilisation de modules sous python

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Programmes des classes préparatoires aux Grandes Ecoles

Bienvenue. #TwitterMobile

Jeudi 16 octobre 2014

CRÉER UNE PAGE FACEBOOK POUR SON INSTITUTION

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

FORUM CETO 2012 SOCIAL MEDIA & TOUR-OPERATING. Anne-Servane LASSERRE Marketing Director contact@milky.fr

RÉSEAUX SOCIAUX & BTOB

UNIVERSITÉ DU QUÉBEC À MONTRÉAL. MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE DE LA MAÎTRlSE EN INFORMATIQUE PAR FRANCK GOUDJO

Mon Odyssée Lean Startup

Les défis statistiques du Big Data

FIMA, 7 juillet 2005

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Cours d analyse numérique SMI-S4

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

INF6304 Interfaces Intelligentes

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

3 Approximation de solutions d équations

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Les outils BI du consultant métier

SAN07 IBM Social Media Analytics:

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Echantillonnage Non uniforme

Chp. 4. Minimisation d une fonction d une variable

Cours Informatique Master STEP

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Les algorithmes de base du graphisme


Exemple PLS avec SAS

DOSSIER FLASH. «Path - Tango»

La modélisation des déplacements : Qu est ce qu un modèle, pour qui et pourquoi?

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Transcription:

FaceBook aime les Maths! Michel Rigo http://www.discmath.ulg.ac.be/ http://orbi.ulg.ac.be/

Réseaux

Visualizing my Twitter Network by number of followers. Michael Atkisson http://woknowing.wordpress.com/

p.3 p.5 p.1 p.4 Les pages et les liens entre les pages p.2

Des co-auteurs scientifiques et le nombre d Erdős

P. ERDOS A. EINSTEIN Y. CRAMA E. CHARLIER G. HAESBROECK M.RIGO G. HANSOUL S. NICOLAY P. LECOMTE Y. SWAN J. P. SCHNEIDERS F. BASTIN P. MATHONET sous-graphe, chemins les plus courts (septembre 2014) M. Newman, the structure of scientific collaboration networks (2001).

Qu est qu un graphe? On veut modéliser des relations (symétriques ou orientées). On considère un ensemble V de sommets et une partie E V V, un ensemble de couples de sommets. FaceBook V est l ensemble des utilisateurs, (u,v) ET (v,u) appartiennent à E si u et v sont amis. Twitter V est l ensemble des utilisateurs, (u,v) appartient à E si u est un follower de v.

Qu est qu un graphe? p.3 p.5 p.1 p.4 p.2 Le graphe du web V est l ensemble des pages web, (u,v) appartient à E si la page u a un lien vers la page v. Le graphe des co-auteurs V est l ensemble des scientifiques publiant des articles de recherche, (u,v) ET (v,u) appartiennent à E si u et v ont écrit un article ensemble.

Is Graph Theory Key to Understanding Big Data? WIRED Mars 2014 istock.com/af-studio

Graph Theory: Key to Understanding Big Data WIRED Mai 2014 Facebook CEO Mark Zuckerberg shows off Graph Search. Photo: Ariel Zambelich/Wired http://innovationinsights.wired.com/insights/2014/05/graph-theory-key-understanding-big-data-2/

Avoir des outils pour les GRANDS graphes... calcul de distances détection de communautés homophilie : tendance à se rapprocher de ses semblables

Small-world phenomenom I read somewhere that everybody on this planet is separated only by six other people. Six degrees of separation. Between us and everyone else on this planet. John Guare

Calcul de distances et produit matriciel Stanley Milgram, Psychology Today (1967). 1 2 7 0 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 1 0 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 3 4 5 6 8

Produit matriciel u a b c d v w x =???? =

Produit matriciel u a b c d v w x =???? = au+

Produit matriciel u a b c d v w x =???? = au +bv+

Produit matriciel u a b c d v w x =???? = au +bv +cw+

Produit matriciel u a b c d v w x =???? = au +bv +cw +dx

0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 2 1 2 3 4 0 2 1 1 0 2 1 1 6 2 1 5 = 2 0 0 2 2 0 0 2 1 0 0 1 1 0 0 1 = 2 8 4 2 1 4 2 1 1 2 1 0 1 2 1 0 5 2 1 6

0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 2 1 2 3 4 0 2 1 1 0 2 1 1 6 2 1 5 = 2 0 0 2 2 0 0 2 1 0 0 1 1 0 0 1 = 2 8 4 2 1 4 2 1 1 2 1 0 1 2 1 0 5 2 1 6

0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 0 2 1 1 2 0 0 2 1 0 0 1 1 2 1 0 2 a 2 c b d 1 e 4 f 3 g 0 2 1 1 0 2 1 1 6 2 1 5 = 2 0 0 2 2 0 0 2 1 0 0 1 1 0 0 1 = 2 8 4 2 1 4 2 1 1 2 1 0 1 2 1 0 5 2 1 6 5 = 2 2+1 car a c, a d, b c, b d, f g.

Théorème Si A est la matrice d adjacence d un graphe, alors (A n ) i,j est le nombre de chemins de longueur n joignant i à j. Preuve : Par récurrence sur n.

Vérifier uniquement par calcul les 6 degrés de séparation 1 7 2 3 4 5 6 8 0 1 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 0 0 1 1 0 1 0 0, 0 0 0 0 1 0 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 } {{ } =M 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Vérifier uniquement par calcul les 6 degrés de séparation 1 7 2 3 4 5 6 8 2 1 0 0 0 1 1 0 1 2 0 0 0 1 1 0 0 0 2 1 1 1 0 1 0 0 1 3 1 1 0 0 0 0 1 1 3 0 1 1, 1 1 1 1 0 2 0 0 1 1 0 0 1 0 3 0 0 0 1 0 1 0 0 1 } {{ } =M 2 2 1 2 1 1 2 2 1 2 1 1 2 2 1 2 1 2 1 1 1 2 1 2 2 2 2 2 2 1 2 1 1 1 2 1 2 2 1 2 2

Vérifier uniquement par calcul les 6 degrés de séparation 1 7 2 3 4 5 6 8 2 3 0 0 1 1 4 0 3 2 0 0 1 1 4 0 0 0 2 4 4 1 1 1 0 0 4 2 5 1 1 3 1 1 4 5 2 4 0 1, 1 1 1 1 4 0 4 1 4 4 1 1 0 4 2 0 0 0 1 3 1 1 0 0 } {{ } =M 3 2 1 3 2 1 1 2 3 2 1 2 1 1 2 3 2 1 2 1 2 3 1 3 3 1 1 2 1 2 2 2 2 2 2 1 2 1 3 1 1 3 3 2 1 2 2 1 2 3 2

Vérifier uniquement par calcul les 6 degrés de séparation 1 7 2 3 4 5 6 8 7 6 1 1 1 5 6 0 6 7 1 1 1 5 6 0 1 1 8 7 7 5 1 4 1 1 7 12 7 6 1 2 1 1 7 7 13 2 6 5, 5 5 5 6 2 8 2 1 6 6 1 1 6 2 12 1 0 0 4 2 5 1 1 3 } {{ } =M 4 2 1 4 4 3 2 1 1 2 4 4 3 2 1 4 4 2 1 1 2 3 2 4 4 1 2 1 2 3 1 3 3 1 1 2 1 2 2 2 2 2 2 1 2 1 3 1 1 3 3 2 1 2 4 2 1 2 3 4 2

Vérifier uniquement par calcul les 6 degrés de séparation 1 7 2 3 4 5 6 8 12 13 2 2 7 7 18 1 13 12 2 2 7 7 18 1 2 2 14 19 20 8 7 7 2 2 19 16 25 8 8 12 7 7 20 25 16 19 4 7, 7 7 8 8 19 4 18 6 18 18 7 8 4 18 14 1 1 1 7 12 7 6 1 2 } {{ } =M 5 2 1 4 4 3 2 1 5 1 2 4 4 3 2 1 5 4 4 2 1 1 2 3 2 4 4 1 2 1 2 3 1 3 3 1 1 2 1 2 2 2 2 2 2 1 2 1 3 1 1 3 3 2 1 2 4 5 5 2 1 2 3 4 2

Remarque Calculer un élément d un produit de deux matrices n n nécessite n produits de nombres, n 1 sommes. Donc, en tout, on a n 3 produits de nombres à calculer. Algorithme de Strassen (1969) Multiplication de matrices 2 2 avec 7 multiplications récursivement, nombre de multiplications O(n log 2 7 ) O(n 2,807 ). problèmes de stabilité numérique (si approximations). Algorithme de Coppersmith Winograd (2010) nombre de multiplications O(n 2,375477 ). Algorithme de François Le Gall (2014) nombre de multiplications O(n 2,3728639 ).

Remarque Calculer un élément d un produit de deux matrices n n nécessite n produits de nombres, n 1 sommes. Donc, en tout, on a n 3 produits de nombres à calculer. Algorithme de Strassen (1969) Multiplication de matrices 2 2 avec 7 multiplications récursivement, nombre de multiplications O(n log 2 7 ) O(n 2,807 ). problèmes de stabilité numérique (si approximations). Algorithme de Coppersmith Winograd (2010) nombre de multiplications O(n 2,375477 ). Algorithme de François Le Gall (2014) nombre de multiplications O(n 2,3728639 ).

La détection de communautés blogs politiques avant l élection présidentielle aux USA de 2004. http://www-personal.umich.edu/ ladamic/img/politicalblogs.jpg

La détection de communautés On recherche des régions hautement interconnectées Fast unfolding of communities in large networks, V. D. Blondel, J.-L. Guillaume, R. Lambiotte, E. Lefebvre (2008)

La détection de communautés Fast unfolding of communities in large networks, V. D. Blondel, J.-L. Guillaume, R. Lambiotte, E. Lefebvre (2008) http://arxiv.org/abs/0803.0476 2,6 millions d abonnés, plus d un milliard d appels

La détection de communautés D autres méthodes existent : division/effacement, Girvan, Newman 2002 2004, Radicchi et al. 2004 agglomération récursive, Pons, Latapy 2006 Maximiser une fonction objectif, Clauset, Newman, Moore 2004, Wu, Huberman 2004 La qualité du résultat est mesuré par la modularité M [ 1,1], M = 1 [ A ij k ] ik j δ(c i,c j ) 2m 2m i,j où k i = j A ij, c i est la communauté assignée au sommet i et m = 1 2 i,j A ij.

Essayer de modéliser le qui se ressemble, s assemble Une règle locale a des influences globales... liens dans un réseau social au sein d une école, liens forts au sein d une classe apparition de quartiers dans des métropoles Thomas Schelling, Dynamic models of segregation, J. of Math. Sociology (1972).

chaque habitant

chaque habitant a des voisins

y-a-t-il suffisamment de semblables? (par ex. 4)

sinon, il se déplace sur une case vide (au plus proche)

distance de Manhattan 0

distance de Manhattan 1

distance de Manhattan 2

distance de Manhattan 3

http://web.mit.edu/rajsingh/www/lab/alife/schelling.html

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

pas de 4 itérations

après 320 itérations

pourcentage d Afro-Américains par quartier à Chicago en 1940 Markus M. Möbius, Tanya S. Rosenblat, The Process of Ghetto Formation: Evidence from Chicago

pourcentage d Afro-Américains par quartier à Chicago en 1960 Markus M. Möbius, Tanya S. Rosenblat, The Process of Ghetto Formation: Evidence from Chicago

Simulations, observations qualitatives L analyse du modèle est difficile (problèmes ouverts) Analogie avec la physique (mélange de deux liquides)

En guise de conclusion Amasser un grand nombre de données donner une vue d ensemble de problèmes complexes : santé, embouteillages, comportements sociaux,... comment ces données sont-elles exploitées par les entreprises? Wearable devices, appareils mettables

Pour aller plus loin Jon Kleinberg, Prix Nevanlinna (ICM 2006 Aspects mathématiques des sciences de l information)