Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014



Documents pareils
Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Pair-à-Pair: Architectures et Services

Mes documents Sauvegardés

RFC 791 (Jon Postel 1981)

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

matérialisation Cloud computing» «Dématérialisation Des technologies qui permettent de mieux gérer et développer son entreprise Intervenants

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Web 2.0 : Premiers pas vers... Une Industrie informatique

Enjeux mathématiques et Statistiques du Big Data

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Louis Naugès Paris, 17 juin 2013 Louis Naugès - Chief Cloud Evangelist Revevol

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

La tête dans les nuages

Entrez dans l ère du Numérique Très Haut Débit

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

Big Data et Graphes : Quelques pistes de recherche

Performance et usage. La différence NETGEAR - R7000. Streaming HD illimitée

MARS La mise en place d un réseau informatique facilite la communication interne d une entreprise. # #

Territoires géographiques/numériques

Métrologie réseaux GABI LYDIA GORGO GAEL

Caches web. Olivier Aubert 1/35

OCLOUD BACKUP GUIDE DE REFERENCE POUR ANDROID

HAUTE DISPONIBILITÉ INFORMATIQUE GESTION DE PROJET.

Les Content Delivery Network (CDN)

Cisco Certified Network Associate

Gestion et Surveillance de Réseau

Big Data et Graphes : Quelques pistes de recherche

Veille Technologique. Cloud Computing

SEO Campus 2009 : Pagerank et optimisation

Plan. Programmation Internet Cours 3. Organismes de standardisation

DIGITAL MINDS. Chapitre 6, Le référencement naturel. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Réseaux M2 CCI SIRR. Introduction / Généralités

Acrobat XI pour PC/Mac (version Pro) Pour qui, pourquoi et comment fabriquer un PDF?

Veille Technologique. Cloud-Computing. Jérémy chevalier

Sauvegarde collaborative en pair-à-pair

Comment choisir sa tablette?

SÉRIE NOUVELLES ARCHITECTURES

Routeur Gigabit WiFi AC 1200 Dual Band

Qu est-ce que le «cloud computing»?

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

La Voix sur le Réseau IP

Travaux pratiques Configuration d un pare-feu sous Windows XP

Manual de l utilisateur

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Vue d'ensemble de NetFlow. Gestion et Supervision de Réseau

Computer Networking: A Top Down Approach Featuring the Internet, 2 nd edition. Jim Kurose, Keith Ross Addison-Wesley, July ENPC.

Commutateur sûr, efficace et intelligent pour petites entreprises

Cours n 12. Technologies WAN 2nd partie

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

F CFA F CFA F CFA +200 Mo 1000 F de crédit F CFA F CFA. Airtel, 1 er réseau 3G/4G au Gabon.

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Informations Techniques Clic & Surf V 2.62

Internet Découverte et premiers pas

Réseaux Locaux. Objectif du module. Plan du Cours #3. Réseaux Informatiques. Acquérir un... Réseaux Informatiques. Savoir.

Pour vos questions ou une autorisation d utilisation relative à cette étude vous pouvez contacter l équipe via contact@4gmark.com

Mode d emploi. Félicitations pour votre achat de la tablette Viewpia TB-107. Nous vous remercions pour votre confiance d acheter notre produit!

Optimisation WAN de classe Centre de Données

Cisco Certified Network Associate

Contributions à l expérimentation sur les systèmes distribués de grande taille

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

Cloud computing Votre informatique à la demande

Évolution de la supervision et besoins utilisateurs

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Introduction. Adresses

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

1. Introduction à la distribution des traitements et des données

Ebauche Rapport finale

Optimisez les coûts de possession de votre information et redonnez de la capacité d investissement au DSI

Votre cloud est-il net?

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Dimensionnement Introduction

Les tablettes. Présentation tablettes Descriptif Fournisseurs Caractéristiques Comparatifs Conseils Perspectives Démonstration

Systèmes et Réseaux (ASR 2) - Notes de cours Cours 14

Bases de données documentaires et distribuées Cours NFE04

Les Réseaux Informatiques

Etude des outils du Cloud Computing

La base de données dans ArtemiS SUITE

COMMENT FONCTIONNE GOOGLE?

Accédez au test ici

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Guide des fonctions avancées de mywishtv

Pré-requis techniques. Yourcegid Secteur Public On Demand Channel

Réseaux grande distance

LIVRE BLANC OCTOBRE CA Unified Infrastructure Management : architecture de la solution

Créca. Ajout aux livrets d informatique. Hiver 2014

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Le Web de A à Z. 1re partie : Naviguer sur le Web

Pré-requis installation

Le Multicast. A Guyancourt le

Plan. École Supérieure d Économie Électronique. Plan. Chap 9: Composants et systèmes de sécurité. Rhouma Rhouma. 21 Juillet 2014

Etape 1 : Connexion de l antenne WiFi et mise en route

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Les Réseaux Privés Virtuels (VPN) Définition d'un VPN

Pourquoi Immoweb est-il le 1 er portail immobilier belge?

Informatique Générale Les réseaux

Transcription:

Recherche et Diffusion de l Information dans les Réseaux Philippe Robert Le 8 avril 2014

Présentation

Présentation Directeur de recherche à l INRIA Responsable de l équipe de recherche Réseaux, Algorithmes et Probabilités Professeur à l École Polytechnique Mathématicien Spécialité : Probabilités

Problématique générale La raison d être d un réseau : Diffuser Rechercher l information

Quelques problèmes classiques Recherche de l information Partage/Diffusion de l information Contrôle d accès Gérer les conflits d accès...

Plan de la conférence Une brève histoire Transmission de données dans les réseaux Recherche d information Internet maintenant

Histoire

Un bref aperçu historique 1900 : Réseaux téléphoniques

Réseau téléphonique

Un bref aperçu historique 1900 : Réseaux téléphoniques

Un bref aperçu historique 1900 : Réseaux téléphoniques 1960 : Réseaux informatiques Serveur central

IBM System/360

Le Modèle du Serveur Central

Un bref aperçu 1909 : Réseaux téléphoniques 1960 : Réseaux informatiques Serveur central

Un bref aperçu 1909 : Réseaux téléphoniques 1960 : Réseaux informatiques Serveur central 1980 : Systèmes distribués Réseaux Locaux Internet Réseaux Mobiles

Système Distribué Ensemble de Machines communicantes Pas de Contrôle Central Chacune agit de façon autonome

Exemples de Systèmes Distribués Exemples Internet : Transmission des données

Exemples de Systèmes Distribués Exemples Internet : Transmission des données Réseaux Pair à Pair Recherche et Stockage des données : BitTorrent Téléphone : Skype...

Les Systèmes Distribués dans la Nature Bancs de Poisson Fourmilière, Essaims

Les Systèmes Distribués dans la Nature Bancs de Poisson Fourmilière, Essaims Cerveau...

Innovation dans les réseaux Progrès technologiques : Vitesse des processeurs, des composants Nouveaux matériaux,...

Innovation dans les réseaux Progrès technologiques : Vitesse des processeurs, des composants Nouveaux matériaux,... Important mais n est plus la source dominante d innovation

Innovation dans les réseaux Progrès technologiques : Vitesse des processeurs, des composants Nouveaux matériaux,... Important mais n est plus la source dominante d innovation Conception d Algorithmes Langages/Programmes Informatiques Modélisation mathématique... Importance croissante

Internet

L unité d information de l Internet : LE PAQUET Un paquet : un entête + les données L entête contient entre autres l adresse de la machine qui doit recevoir le paquet Les données une partie du contenu du fichier transféré

L unité d information de l Internet : LE PAQUET Un paquet : un entête + les données L entête contient entre autres l adresse de la machine qui doit recevoir le paquet Les données une partie du contenu du fichier transféré Exemples Un CD mp3 : 400 000 paquets Un film : 4 000 000 paquets

Un réseau à commutation de paquets Messages divisés en paquets Paquets acheminés individuellement Avantages Système distribué Flexibilité : Évolution facile

Internet : Une vue simplifiée S/D S/D S/D PC 2 R R Source/Destination S/D PC 1 R Routeur R S/D S/D

Un Routeur Cisco OC192 Débit : 10 Giga bits/sec

Trajet d un paquet de Paris à Stanford (Californie) 0 @work France 1 rocq-gw-ipv6.inria.fr 2 gi4-1-inria-rtr-021.noc.renater.fr 3 te2-5-paris1-rtr-021.noc.renater.fr 4 te0-1-0-3-paris1-rtr-001.noc.renater.fr 5 te0-1-0-4-paris2-rtr-001.noc.renater.fr 6 hurricane-electric.franceix.net 7 10gigabitethernet1-1.core1.par2.he.net Paris 8 10gigabitethernet6-2.core1.lon1.he.net Londres 9 10gigabitethernet7-4.core1.nyc4.he.net New York 10 10gigabitethernet8-3.core1.chi1.he.net Chicago 11 10gigabitethernet3-2.core1.den1.he.net Denver 12 10gigabitethernet11-4.core1.sjc2.he.net San Jose 13 10gigabitethernet3-2.core1.pao1.he.net 14 stanford-university.he.net

Internet : Une vue simplifiée S/D S/D S/D PC 2 R R Routeur Source/Destination S/D R R PC 1 Buffer S/D S/D

Internet : Une vue simplifiée S/D S/D S/D Ent Data R PC 2 R Ent Data Source/Destination Ent Data S/D R R PC 1 Buffer Routeur S/D S/D

Transfert du fichier F de la machine PC 1 vers la machine PC 2 Sur chaque machine : un programme contrôle l échange

Transfert du fichier F de la machine PC 1 vers la machine PC 2 Sur chaque machine : un programme contrôle l échange PC 1 segmente en n paquets une copie de F et envoie le numéro 1, puis 2,... n à PC 2

Transfert du fichier F de la machine PC 1 vers la machine PC 2 Sur chaque machine : un programme contrôle l échange PC 1 segmente en n paquets une copie de F et envoie le numéro 1, puis 2,... n à PC 2 Mémoire des routeurs finie : en cas de congestion Le réseau perd des paquets

Transmission de Données sur Internet Problème : Comment transmettre de façon fiable dans un réseau qui ne l est pas?

Transmission de Données sur Internet TCP : Transmission Control Protocol Algorithme de transmission de données > 95% du traffic Internet contrôlé par TCP

Les principes de base TCP Cerf and Kahn (1973) Accusé de réception des messages Régulation des envois : à un instant une source a au plus W paquets en circulation dans le réseau W : Taille de la fenêtre de congestion

Les principes de base TCP (II) Contrôle de la congestion Jacobson (1987) Transmission de W paquets OK : W W + 1 Un paquet est perdu : W W/2

Conclusion sur TCP +++ Adaptation aux conditions de trafic -- Pas de garantie de débit, d accès,...

Conclusion sur TCP +++ Adaptation aux conditions de trafic -- Pas de garantie de débit, d accès,... Remarquables propriétés d auto-stabilisation

Google

Un peu d histoire 1995 : Premiers moteurs de recherche AltaVista 1998 : Article Brin et Page Fondateurs de Google The anatomy of a largescale hypertextual web search engine

Un peu d histoire 1995 : Premiers moteurs de recherche AltaVista 1998 : Article Brin et Page Fondateurs de Google The anatomy of a largescale hypertextual web search engine Introduction de la notion de Page rank Algorithme pour estimer celui-ci

w page1 W.U.com w page3 www.x.fr w page2 www.v.uk w page4 Le web : un graphe orienté 45 milliards de pages web indexées par Google

Comment Marche un Moteur de Recherche? Problème : Recherche d un site web ayant une information sur le sujet XYZ

Comment Marche un Moteur de Recherche? Problème : Recherche d un site web ayant une information sur le sujet XYZ Première étape (facile) Recherche de l ensemble des sites web ayant ce mot XYZ

Comment Marche un Moteur de Recherche? Problème : Recherche d un site web ayant une information sur le sujet XYZ Première étape (facile) Recherche de l ensemble des sites web ayant ce mot XYZ Deuxième étape Quel est le site web le plus pertinent?

Comment Marche un Moteur de Recherche? Principe : Trouver une fonction π telle que : À une page web p on associe π(p) [0, 1] p plus pertinent que q si π(p) > π(q)

Comment Marche un Moteur de Recherche? Principe : Trouver une fonction π telle que : À une page web p on associe π(p) [0, 1] p plus pertinent que q si π(p) > π(q) E XYZ = {p : p page web contenant XYZ }

Comment Marche un Moteur de Recherche? Principe : Trouver une fonction π telle que : À une page web p on associe π(p) [0, 1] p plus pertinent que q si π(p) > π(q) E XYZ = {p : p page web contenant XYZ } Action : Afficher les pages p 1,... p 10 ayant les 10 plus grandes valeurs pour π sur E XYZ

La fonction π pour Google Brin et Page (1997) π(q) : Importance de la page q L q = {p : p a un lien vers la page web q}

La fonction π pour Google Brin et Page (1997) π(q) : Importance de la page q L q = {p : p a un lien vers la page web q} Principe : Importance de p transmise/héritée de q : π(q)m(q, p) avec M(q, p) = 1 L q

La fonction π pour Google Importance de q transmise à p π(q)m(q, p)

La fonction π pour Google Équation linéaire pour π π(p) = π(q)m(q, p) q:p L q

La fonction π pour Google Équation linéaire pour π π(p) = π(q)m(q, p) q:p L q Le système est singulier de rang S 1 p:p L q M(q, p) = p:p L q 1 L q = 1 S : ensemble de toutes les pages web

La fonction π pour Google Si M = (M(p, q), p, q S), il existe un unique vecteur (π(p), p S) tel que π = πm et π(p) = 1 p S

La fonction π pour Google Si M = (M(p, q), p, q S), il existe un unique vecteur (π(p), p S) tel que π = πm et π(p) = 1 p S Propriété : π(p) (0, 1), p S

La fonction π pour Google Si M = (M(p, q), p, q S), il existe un unique vecteur (π(p), p S) tel que π = πm et π(p) = 1 p S Propriété : π(p) (0, 1), p S Un détail : le nombre de pages dans S est 50 milliards!

La fonction π pour Google en pratique Analyse numérique : Produits matrice/vecteurs Techniques d uniformisation

La fonction π pour Google

La fonction π pour Google Modèle mathématique : surfeur aléatoire S

La fonction π pour Google Modèle mathématique : surfeur aléatoire S S navigue au hasard sur le web : Si S sur une page web à l instant t à t + 1, S choisit au hasard un lien de cette page et va sur la page web correspondante, etc...

0 w page1 2 W.U.com 1 w page3 www.x.fr 3 w page2 0 0 www.v.uk w page4 1

0 w page1 2 W.U.com 1 w page3 www.x.fr 4 w page2 0 0 www.v.uk w page4 1

1 w page1 2 W.U.com 1 w page3 www.x.fr 4 w page2 0 0 www.v.uk w page4 1

La fonction π pour Google Durée du surf T = 10 12 (par exemple) Si p est une page web, f T (p) = 1 T N T(p), où N T (p) : nb de passages à p entre 0 et T

La fonction π pour Google Durée du surf T = 10 12 (par exemple) Si p est une page web, f T (p) = 1 T N T(p), où N T (p) : nb de passages à p entre 0 et T p 1 plus pertinent que p 2 si f T (p 1 ) > f T (p 2 )

La fonction π pour Google Durée du surf T = 10 12 (par exemple) Si p est une page web, f T (p) = 1 T N T(p), où N T (p) : nb de passages à p entre 0 et T p 1 plus pertinent que p 2 si f T (p 1 ) > f T (p 2 ) Problèmes Dépend de T?

La fonction π pour Google Durée du surf T = 10 12 (par exemple) Si p est une page web, f T (p) = 1 T N T(p), où N T (p) : nb de passages à p entre 0 et T p 1 plus pertinent que p 2 si f T (p 1 ) > f T (p 2 ) Problèmes Dépend de T? Dépend du point de départ du surfeur?

La fonction π pour Google Durée du surf T = 10 12 (par exemple) Si p est une page web, f T (p) = 1 T N T(p), où N T (p) : nb de passages à p entre 0 et T p 1 plus pertinent que p 2 si f T (p 1 ) > f T (p 2 ) Problèmes Dépend de T? Dépend du point de départ du surfeur? Dépend des choix aléatoires du surfeur?

Résultats de Maths La limite existe : ν(p) = lim T + N T (p) T

Résultats de Maths La limite existe : ν(p) = N T (p) lim T + T ne dépend donc pas de T (T assez grand)

Résultats de Maths La limite existe : ν(p) = N T (p) lim T + T ne dépend donc pas de T (T assez grand) ne dépend pas du point de départ ν est en fait l unique solution de ν = νm et ν(x) = 1 x S

Résultats de Maths La limite existe : ν(p) = N T (p) lim T + T ne dépend donc pas de T (T assez grand) ne dépend pas du point de départ ν est en fait l unique solution de ν = νm et ν(x) = 1 x S ν = π

Conclusions Idées brillantes de Brin et Page : Modélisation : Représentation mathématique du page rank Algorithme de calcul de π

Les réseaux sociaux

Réseaux sociaux Réseaux par affinité : A ami de B : un lien de A vers B.

B A

Réseaux sociaux Réseaux par affinité : A ami de B : un lien de A vers B. Très grand nombre de nœuds Facebook : 1 milliard

B A

Réseaux sociaux Problème : Comment extraire de l information de ces réseaux?

Réseaux sociaux Problème : Comment extraire de l information de ces réseaux? Un domaine actif de recherche Data Mining (Fouille de données) Algorithmes pour structurer les données. Typologie des Réseaux Sociaux Caractérisation/Estimation des graphes Navigation Algorithmes pour se déplacer.

Réseaux sociaux Problème : Comment extraire de l information de ces réseaux? Un domaine actif de recherche Data Mining (Fouille de données) Algorithmes pour structurer les données. Typologie des Réseaux Sociaux Caractérisation/Estimation des graphes Navigation Algorithmes pour se déplacer. Enjeux économiques

Internet maintenant

Internet Il y a longtemps

Internet Il y a longtemps... vers 2000

Internet Il y a longtemps... vers 2000 Accès à certaines informations

Internet en 2014 : The Cloud

Internet en 2014 : The Cloud The Cloud : Calcul et Stockage des données

Les Nombres du Cloud Nombre de serveurs (Estimation) : Google : 900 000 Microsoft : 518 000 Amazon : 445 000 HP/EDS : 380 000 OVH : 120 000 Facebook : 60 000...

Les Modèles Économiques des Réseaux 1960 1985 IBM Machine+programme Informatique spécifique

Les Modèles Économiques des Réseaux 1960 1985 IBM Machine+programme Informatique spécifique 1985 201? Microsoft Programme Informatique généraliste

Les Modèles Économiques des Réseaux 1960 1985 IBM Machine+programme Informatique spécifique 1985 201? Microsoft Programme Informatique généraliste 2000? Google Recherche sur Internet

Les Modèles Économiques des Réseaux 1960 1985 IBM Machine+programme Informatique spécifique 1985 201? Microsoft Programme Informatique généraliste 2000? Google Recherche sur Internet 2010 Fermes de données : Google, Amazon, Apple, Facebook,...

Les Modèles Économiques des Réseaux 1960 1985 IBM Machine+programme Informatique spécifique 1985 201? Microsoft Programme Informatique généraliste 2000? Google Recherche sur Internet 2010 Fermes de données : Google, Amazon, Apple, Facebook,... + Réseaux Sociaux Facebook, Twitter, Snapchat,...

La Fin