Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.



Documents pareils
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Chaînes de Markov au lycée

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Théorème du point fixe - Théorème de l inversion locale

COMMENT FONCTIONNE GOOGLE?

Problème 1 : applications du plan affine

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Calcul différentiel sur R n Première partie

Programmes des classes préparatoires aux Grandes Ecoles

Big Data et Graphes : Quelques pistes de recherche

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Introduction à MATLAB R

Chapitre 5 : Flot maximal dans un graphe

Texte Agrégation limitée par diffusion interne

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Programmation linéaire

Développement décimal d un réel

NOTATIONS PRÉLIMINAIRES

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Big Data et Graphes : Quelques pistes de recherche

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Algorithmes pour la planification de mouvements en robotique non-holonome

Théorie et codage de l information

Cours 02 : Problème général de la programmation linéaire

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

3 Approximation de solutions d équations

Le modèle de Black et Scholes

D UN BON REFERENCEMENT

Résolution d équations non linéaires

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

1 Complément sur la projection du nuage des individus

Fonctions de plusieurs variables

Enjeux mathématiques et Statistiques du Big Data

I. Polynômes de Tchebychev

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Evaluation et analyse de la fréquentation d un site

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

BACCALAUREAT GENERAL MATHÉMATIQUES

Formation GISEH Module rédacteur 7, 9 juin 5, 12 juillet 2011

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

AdWords Guide de survie


Chapitre 2 Le problème de l unicité des solutions

1. Pourquoi? Les avantages d un bon référencement

Chp. 4. Minimisation d une fonction d une variable

L optimisation d une PowerBoutique pour le référencement

Correction du baccalauréat ES/L Métropole 20 juin 2014

Continuité et dérivabilité d une fonction

Suites numériques 3. 1 Convergence et limite d une suite

La classification automatique de données quantitatives

Cours d Analyse. Fonctions de plusieurs variables

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Filtrage stochastique non linéaire par la théorie de représentation des martingales

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

Le produit semi-direct

LES MOTEURS DE RECHERCHE SUR INTERNET

Référencement Vendredi 4 Juillet Ile Degaby

COMMENT AMELIORER LA VISIBILITE DE SON SITE WEB?

Pourquoi une stratégie de sites dédiés? Laurent-Pierre GILLIARD AEC 14/06/2007 Vincent MOREAU SYSTONIC 09/06/2006

E-Commerce à Orthez E-Commerce : Se lancer - Générer des commandes - Se positionner : Explications et témoignages Orthez 15 mai 2008

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Chapitre VI - Méthodes de factorisation

Programmation linéaire et Optimisation. Didier Smets

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Calcul différentiel. Chapitre Différentiabilité

Température corporelle d un castor (une petite introduction aux séries temporelles)

Intégration de la dimension sémantique dans les réseaux sociaux

données en connaissance et en actions?

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

SEO Campus 2009 : Pagerank et optimisation

SOMMAIRE. 1. Comprendre les bases - référencement, indexation et positionnement - comment fonctionne Google pour indexer et référencer un site?

Référencement naturel & E-tourisme. Pau 02/10/2008

Analyse en Composantes Principales

Kaizen Marketing Group Web Agency. Kaizen Marketing. - Stéphanie Héline-

Image d un intervalle par une fonction continue

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

CCP PSI Mathématiques 1 : un corrigé

1 Recherche en table par balayage

Référencement naturel

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Cours d analyse numérique SMI-S4

Jean-Philippe Préaux

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Feuille d exercices 2 : Espaces probabilisés

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Transcription:

Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion comme vous l entendez. Il vous est conseillé de mettre en lumière vos connaissances à partir du fil conducteur constitué par le texte. Le jury demande que la discussion soit accompagnée d exemples traités sur ordinateur. Il est souhaitable que vous organisiez votre présentation comme si le jury n avait pas connaissance du texte. Le jury aura néanmoins le texte sous les yeux pendant votre exposé. L algorithme Pagerank du moteur de recherche Google 1. Introduction Un moteur de recherche est un outil logiciel qui établit une liste (annuaire) des sites sur le web. Les internautes ont accès à cet annuaire trop long pour être exploré directement en effectuant des requêtes sous forme de mots-clés. Son fonctionnement peut se décomposer en trois étapes : 1. L exploration automatique du web pour récupérer les adresses des pages web à accès public : des agents appelés «robots» parcourent les sites à intervalles réguliers, en utilisant les liens hypertextes (lien permettant d accéder à une page à partir d une autre), ceci de façon automatique, pour enregistrer de nouvelles adresses (URL). 2. L indexation qui consiste à récupérer pour chaque page web des mots considérés comme significatifs. Ces mots sont enregistrés dans une base de données. 3. Le classement des pages web référencées dans la base de données afin que l internaute qui effectue une recherche selon des mots clés reçoivent en priorité les réponses selon un ordre de pertinence et d importance. Nous présentons ici l algorithme Pagerank utilisé par le moteur de recherche Google pour le classement des pages web. Cet algorithme attribue à chaque page web une note, son pagerank, qui va contribuer au classement des pages des plus importantes (celles qui ont la meilleure note) au moins importantes. 2. Modélisation(s). Le web est représenté par un graphe orienté G = (S,A) où S est un ensemble fini et A un sous-ensemble de S S : L ensemble S des sommets du graphe reprsente l ensemble des pages web référencées : Chaque page référencée est numérotée et l ensemble S est l ensemble des numéros des pages référencées soit un ensemble d entiers de la forme {1,2,...,N}. Ce nombre N est très grand (au moins plusieurs centaines de milliards). L ensemble A des arêtes est en bijection avec l ensemble des liens hypertextes : l arête (i,j), souvent désignée par i j, est dans A si il existe sur la page i un lien pointant sur la page j. Claudine Picaronny 1 ENS de Cachan

1 3 2 4 Figure 1: Un exemple de web avec 4 pages Pour classer les pages selon leur importance (terme qu il faudra préciser), on souhaite leur attribuer à chacune une note, c est à dire une fonction f de S dans Q + déterminée en fonction des liens existants. L idée de base est de considérer le web comme une démocratie, où chaque page est à la fois un électeur et un candidat, et un lien de la page i sur la page j représente un vote de l electeur i vers le candidat j. Une première idée est d affecter à chaque page le nombre de pages pointant sur elle (on compte les voix) ; Dans notre exemple, la fonction serait f(1) = 2,f(2) = 1,f(3) = 3,f(4) = 2. Le classement induit par un tel choix est peu fiable dans la mesure où la note d une page peut-être aisément augmentée de façon artificielle par la création de pages pointant sur elle. Il parait raisonnable d exiger qu une page jugée importante transmette d une certaine façon cette qualité aux pages sur lesquelles elle pointe. Une deuxième idée est donc d affecter à une page la somme des notes des pages qui pointent sur elle. La fonction f serait ainsi définie comme solution du système : i S, f(i) = j if(j). Il n y a priori pas de raison que ce système ait une solution. Un autre défaut de la méthode précédente est qu elle donne la même importance à chaque lien : deux pages d égales importances n ont pas le même pouvoir de vote, si l une pointe sur une seule page alors que l autre pointe sur de nombreuses pages, ce qui n est pas équitable et encourage la vénalité. Le principe de la classification faite par Pagerank utilise l idée précédente en limitant à 1 le vote de chaque électeur (page) de façon uniforme. Si, pour chaque page j, n j désigne le nombre de liens (vote) sur cette page la fonction f utilisée est définie par : i S,f(i) = f(j). n j i j Sur notre exemple, toute solution est colinéaire à la solution f(1) = 12,f(2) = 4,f(3) = 9,f(4) = 6. 3. Une solution à ajuster Le problème est de trouver une fonction de notation f à la fois pertinente et qui puisse être calculée. Le vecteur (f(i)) i défini par la fonction f ci-dessus, doit être un vecteur propre relativement à la valeur propre 1 de la matrice S = ( 1 n j 1 j i ) i,j. Claudine Picaronny 2 ENS de Cachan

Il faut donc s assurer que la matrice S admet bien 1 comme valeur propre. Remarque : Lorsque toute page pointe au moins une fois, la matrice S vérifie les propriétés remarquables suivantes: Les coefficients de S sont positifs, la somme des coefficients de chaque colonne de S est égale à 1. La transposée d une telle matrice est dite matrice stochastique. Une matrice stochastique admet effectivement la valeur propre 1 et il en est donc de même pour sa transposée : Proposition 1 Soit P une matrice stochastique. Alors P admet 1 comme valeur propre associée au vecteur propre (1,...,1). Corollaire 1 Soit P une matrice stochastique. Alors t P admet 1 comme valeur propre. Dans le cas général, les pages qui ne pointent aucune autre page fournissent dans la matrice S des colonnes de 0. La matrice S est alors une matrice à coefficients positifs, majorée coefficient par coefficient par la transposée d une matrice stochastique. Le théorème de Perron-Frobénius assure alors que son rayon spectral est plus petit que 1, atteint pour une valeur propre associée à un vecteur propre dont les coordonnées sont positives. Si ce rayon est < 1, il n existe pas de fonction f (non triviale). Pour remédier à ce problème, on peut remplacer ces colonnes nulles par des colonnes de 1 N par exemple. Une autre difficulté provient du caractère réductible de la matrice S : Définition : Une matrice S est dite réductible si il existe une matrice de permutation Σ et des matrices A,B,C telles que : ( ) A B S = Σ Σ 1. 0 C Pour la matrice S, être irréductible signifierait : de toute page web, on peut atteindre n importe quelle page web en utilisant uniquement des liens hypertextes. Le graphe sous-jacent est dit fortement connexe. Cette hypothèse est peu vraisemblable et contredite par des études statistiques faites sur le web. Une autre propriété intéressante serait l apériodicité car elle implique l unicité (à un scalaire près) d un vecteur propre relativement à à la valeur propre 1 et devrait donc faciliter le calcul de f. Définition : Un graphe orienté est dit apériodique s il est fortement connexe et si le p.g.c.d des longueurs des chemins fermés dans le graphe vaut 1. La proposition ci-dessous montre que sous ces hypothèses il existe une vecteur qui convient, uniquement déterminé si on ajoute une condition de normalisation (par exemple, if(i) = 1, ce qu on ferait si on considère f comme une loi de probabilités, mais le pagerank est en fait une note entière comprise entre 1 et 10). Proposition 2 Soit P une matrice stochastique irréductible et apériodique. Le sous-espace propre ker(p Id) est de dimension 1, engendré par un vecteur dont les coordonnées sont strictement positives. Pour pouvoir utiliser une matrice irréductible et apériodique pour le calcul de f, la matrice S est alors remplacée par une matrice de la forme T := (1 α)s + αj, où J est une matrice stochastique et dont les coefficients sont tous > 0, matrice dite de pertubation. Elle représente Claudine Picaronny 3 ENS de Cachan

la possibilité pour l internaute d écrire une URL au hasard plutot que de naviguer uniquement avec des liens. Ici, la matrice J est la matrice (N,N) dont tous les coefficients sont égaux 1 N (ce n est pas forcément le cas dans l algorithme où la matrice J est une matrice à coefficients strictement positifs, stochastique et de rang 1). Le nombre réel α est dans l intervalle [0, 1] (dans l algorithme, la valeur α = 0,15 est utilisée). Cette modélisation du web s inspire Proposition 3 La matrice T admet 1 comme valeur propre de multiplicité 1. Toutes les autres valeurs propres de T sont strictement inférieures à 1 en module. 4. Le calcul du vecteur propre. Il y a plusieurs billions de pages web. Le vecteur propre à calculer est donc solution d un système linéaire de taille plusieurs billions. Une méthode pour le calculer est de l approcher : On choisit un vecteur x 0 à coordonnées strictement positives, puis on définit la suite x k+1 = Tx k. Proposition 4 La suite normalisée (x k / x k 1 ) converge vers un vecteur propre de T, relatif à la valeur propre 1 et dont les coordonnées sont toutes strictement positives. La limite de cette suite est donc la solution cherchée. Etant donnée la taille des objets à manipuler pour faire le calcul, même approché, l efficacité du calcul est un enjeu crucial. Le calcul du vecteur propre prend plusieurs jours et doit etre actualisé régulièrement. Suggestions de développements. Soulignons qu il s agit d un menu à la carte et que vous pourrez choisir d étudier certains points, pas tous, pas nécessairement dans l ordre et d une façon plus ou moins fouillée. Vous pouvez aussi vous poser d autres questions que celles indiquées plus bas. Il est très vivement conseillé que vos investigations comportent une partie traitée sur ordinateur et, si possible, des représentations graphiques de vos résultats. On pourra expliciter les différents tentatives de définition d une fonction de notation et leurs significations et travers en les illustrant sur un petit exemple, par exemple celui de la figure 2. On pourra démontrer diverses propositions. On pourra étudier la vitesse de convergence de la suite (x k ) k. On pourra étudier la complexité du calcul de f par la méthode itérative. On pourra étudier la robustesse de l algorithme face aux éventuelles manipulations ou au contraire proposer de possibles manipulations pour augmenter le pagerank de sa page, en illustrant avec des exemples. Claudine Picaronny 4 ENS de Cachan

1 2 3 5 6 4 Figure 2: Un exemple de web avec 6 pages Claudine Picaronny 5 ENS de Cachan