L ALGORITHME PAGERANK DE GOOGLE: UNE PROMENADE SUR LA TOILE L E WEB EST UN GRAPHE!



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Interface OneNote 2013

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Dirigeant de SAS : Laisser le choix du statut social

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

COMMENT FONCTIONNE GOOGLE?

Editions ENI. Project Collection Référence Bureautique. Extrait

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Mesure avec une règle

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Généralités sur les fonctions 1ES

INTERNET. Initiation à

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

STATISTIQUE AVEC EXCEL

Montage émetteur commun

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Système solaire combiné Estimation des besoins énergétiques

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Terminal numérique TM 13 raccordé aux installations Integral 33

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

hal , version 1-14 Aug 2009

P R I S E E N M A I N R A P I D E O L I V E 4 H D

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Chapitre 1.5a Le champ électrique généré par plusieurs particules

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Le Prêt Efficience Fioul

Exercices d Électrocinétique

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Paquets. Paquets nationaux 1. Paquets internationaux 11

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

TD 1. Statistiques à une variable.

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Professionnel de santé équipé de Médiclick!

Corrigé du problème de Mathématiques générales Partie I

La Quantification du Risque Opérationnel des Institutions Bancaires

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Page 5 TABLE DES MATIÈRES

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

santé Les arrêts de travail des séniors en emploi

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Analyse des Performances et Modélisation d un Serveur Web

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

22 environnement technico-professionnel

1. Les enjeux de la prévision du risque de défaut de paiement

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Pro2030 GUIDE D UTILISATION. Français

Des solutions globales fi ables et innovantes.

Grandeur physique, chiffres significatifs

Pour plus d'informations, veuillez nous contacter au ou à

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

Chaînes de Markov au lycée

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Prêt de groupe et sanction sociale Group lending and social fine

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Stéganographie Adaptative par Oracle (ASO)

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Evaluation de performances d'ethernet commuté pour des applications temps réel

Calculs des convertisseurs en l'electronique de Puissance

Coefficient de partage

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Pour avoir les idées plus claires...

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

MINISTERE DE L ECONOMIE ET DES FINANCES

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

ACTE DE PRÊT HYPOTHÉCAIRE

Guide d installation. Système d alarme bidirectionnel sans-fil. Modèles:

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Transcription:

Preprnt verson avalable at http://www-fourer.uf-grenoble.fr/ eserm L ALGORITHME PAGERANK DE GOOGLE: UNE PROMENADE SUR LA TOILE MICHAEL EISERMANN Depus plus d une de cenne Google domne le marche des moteurs de recherche sur nternet. Son pont fort est qu l tre ntellgemment ses re sultats par ordre de pertnence. Comment est-ce possble? Depus sa concepton en 1998, Google contnue a e voluer et la plupart des ame loratons demeurent des secrets ben garde s. L de e prncpale, par contre, a e te puble e [1] : le pler de son succe s est une udceuse mode lsaton mathe matque. L E WEB EST UN GRAPHE! Proftons du peu de structure qu sot dsponble. L nternet n est pas une collecton de textes nde pendants mas un mmense hypertexte : les pages se ctent mutuellement. Afn d analyser cette structure nous allons ne glger le contenu des pages et ne tenr compte que des lens entre elles. Ce que nous obtenons est la structure d un graphe. La fgure suvante montre un exemple en mnature. Q UE FAIT UN MOTEUR DE RECHERCHE? 12 11 Une base de donne es a une structure pre de fne qu permet d en extrare des nformatons, par exemple «nom, rue, code postal, te le phone,...». L nternet, par contre, est peu structure : c est une mmense collecton de textes de nature vare e. Toute tentatve de classfcaton semble voue e a l e chec, d autant plus que le web e volue rapdement : une multtude d auteurs aoutent constamment de nouvelles pages et modfent les pages exstantes. 1 10 2 9 3 8 4 7 5 6 Dans la sute e note les pages web par P, Pour trouver une nformaton dans ce tas 1 P2, P3,..., Pn et e crs s la page P cte amorphe, l utlsateur pourra lancer une re- la page P. Dans notre graphe nous avons un cherche de mots-cle s. Cec ne cesste une cer- len 1 5, par exemple, mas pas de len 5 1. tane pre paraton pour e tre effcace : le moteur de recherche cope pre alablement les pages web en me more locale et tre les mots par C OMMENT EXPLOITER CE GRAPHE? ordre alphabe tque. Le re sultat est un annuare de mots-cle s avec leurs pages web assoce es. Les lens sur nternet ne sont pas ale atores Pour un mot-cle donne l y a typquement des mas ont e te e dte s avec son. Quels rensegnements pourrat nous donner ce graphe? mllers de pages correspondantes (plus d un mllon pour «tangente», par exemple). ComL de e de base, encore a formalser, est qu un ment ader l utlsateur a repe rer les re sultats len est une recommandaton de la page P potentellement nte ressants? C est c que d aller lre la page P. C est ans un vote de P Google a apporte sa grande nnovaton. en faveur de l autorte de la page P. Date: preme re verson un 2009. Derne re mse a our: 17 ullet 2009. Document en support de mon expose aux Journe es APMEP a Rouen en octobre 2009.

2 MICHAEL EISERMANN Analysons notre exemple sous cet aspect. La présentaton suvante de notre graphe suggère une hérarche possble encore à ustfer. 5 1 6 7 8 9 2 3 4 12 11 10 Parm les pages P 1,P 2,P 3,P 4 la page P 1 sert de référence commune et semble un bon pont de départ pour chercher des nformatons. Il en est de même dans le groupe P 9,P 10,P 11,P 12 où la page P 9 sert de référence commune. La structure du groupe P 5,P 6,P 7,P 8 est smlare, où P 7 est la plus ctée. À noter toutefos que les pages P 1 et P 9, déà reconnues comme mportantes, font référence à la page P 5. On pourrat ans soupçonner que la page P 5 content de l nformaton essentelle pour l ensemble, qu elle est la plus pertnente. PREMIER MODÈLE : COMPTAGE NAÏF Il est plausble qu une page mportante reçot beaucoup de lens. Avec un peu de naïveté, on crora auss l affrmaton récproque : s une page reçot beaucoup de lens, alors elle est mportante. Ans on pourrat défnr l mportance µ de la page P comme le nombre des lens. En formule cec s écrt comme sut : (1) µ := 1. Autrement dt, µ est égal au nombre de «votes» pour la page P, où chaque vote contrbue par la même valeur 1. C est facle à défnr et à calculer, mas ne correspond souvent pas à l mportance ressente par l utlsateur : dans notre exemple on trouve µ 1 = µ 9 = 4 devant µ 5 = µ 7 = 3. Ce qu est pre, ce comptage naïf est trop facle à manpuler en aoutant des pages sans ntérêt recommandant une page quelconque. SECOND MODÈLE : COMPTAGE PONDÉRÉ Certanes pages émettent beaucoup de lens : ceux-c semblent mons spécfques et leur pods sera plus fable. Nous partageons donc le vote de la page P en l parts égales, où l dénote le nombre de lens éms. Ans on pourrat défnr une mesure plus fne : 1 (2) µ :=. l Autrement dt, µ compte le nombre de «votes pondérés» pour la page P. C est facle à défnr et à calculer, mas ne correspond touours pas ben à l mportance ressente : dans notre exemple on trouve µ 1 = µ 9 = 2 devant µ 5 = 3/2 et µ 7 = 4/3. Et comme avant ce comptage est trop facle à truquer. TROISIÈME MODÈLE : COMPTAGE RÉCURSIF Heurstquement, une page P paraît mportante s beaucoup de pages mportantes la ctent. Cec nous mène à défnr l mportance µ de manère récursve comme sut : 1 (3) µ = µ. l Ic le pods du vote est proportonnel au pods µ de la page émettrce. C est facle à formuler mas mons évdent à calculer. (Une méthode effcace sera explquée dans la sute.) Pour vous rassurer vous pouvez déà vérfer que notre exemple admet ben la soluton P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 µ = ( 2, 1, 1, 1, 3, 1, 2, 1, 2, 1, 1, 1 ). Contrarement aux modèles précédents, la page P 5 est repérée comme la plus mportante. C est bon sgne, nous sommes sur la bonne pste... Remarquons que (3) est un système de n équatons lnéares à n nconnues. Dans notre exemple, où n = 12, l est déà pénble à résoudre à la man, mas encore facle sur ordnateur. Pour les graphes beaucoup plus grands nous aurons beson de méthodes spécalsées.

L ALGORITHME PAGERANK DE GOOGLE 3 PROMENADE ALÉATOIRE Avant de tenter de résoudre l équaton (3), essayons d en développer une ntuton. Pour cec magnons un surfeur aléatore qu se balade sur nternet en clquant sur les lens au hasard. Comment évolue sa poston? À ttre d exemple, supposons que notre surfeur démarre au temps t = 0 sur la page P 7. Le seul len ponte vers P 5, donc au temps t = 1 le surfeur s y retrouve avec probablté 1. D c partent tros lens, donc au temps t = 2 l se trouve sur une des pages P 6, P 7, P 8 avec probablté 1/3. Voc les probabltés suvantes : P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 t=0.000.000.000.000.000.000 1.00.000.000.000.000.000 t=1.000.000.000.000 1.00.000.000.000.000.000.000.000 t=2.000.000.000.000.000.333.333.333.000.000.000.000 t=3.167.000.000.000.333.000.333.000.167.000.000.000 t=4.000.042.042.042.417.111.111.111.000.042.042.042 t=5.118.021.021.021.111.139.250.139.118.021.021.021... t=29.117.059.059.059.177.059.117.059.117.059.059.059 t=30.117.059.059.059.177.059.117.059.117.059.059.059 On observe une dffuson qu converge assez rapdement vers une dstrbuton statonnare. Vérfons cette observaton par un second exemple, partant cette fos-c de la page P 1 : P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 t=0 1.00.000.000.000.000.000.000.000.000.000.000.000 t=1.000.250.250.250.250.000.000.000.000.000.000.000 t=2.375.125.125.125.000.083.083.083.000.000.000.000 t=3.229.156.156.156.177.000.083.000.042.000.000.000 t=4.234.135.135.135.151.059.059.059.000.010.010.010 t=5.233.126.126.126.118.050.109.050.045.005.005.005... t=69.117.059.059.059.177.059.117.059.117.059.059.059 t=70.117.059.059.059.177.059.117.059.117.059.059.059 Ben que la dffuson mette plus de temps, la mesure statonnare est la même! Elle coïncde d alleurs avec notre soluton µ = (2,1,1,1,3,1,2,1,2,1,1,1), c dvsée par 17 pour normalser la somme à 1. Les pages où µ est grand sont les plus «fréquentées» ou les plus «populares». Dans la quête de classer les pages web, c est encore un argument pour utlser la mesure µ comme ndcateur. LA LOI DE TRANSITION Comment formalser la dffuson llustrée cdessus? Supposons qu au temps t notre surfeur aléatore se trouve sur la page P avec une probablté p. La probablté de partr de P et de suvre le len est alors 1 l p. La probablté d arrver au temps t + 1 sur la page P est donc (4) p 1 := p. l Étant donnée la dstrbuton ntale p, la lo de transton (4) défnt la dstrbuton suvante p = T (p). C est ans que l on obtent la lgne t + 1 à partr de la lgne t dans nos exemples. (En théore des probabltés cec s appelle une chaîne de Markov.) La mesure statonnare est caractérsée par l équaton d équlbre µ = T (µ), qu est ustement notre équaton (3). ATTENTION AUX TROUS NOIRS Que se passe-t-l quand notre graphe content une page (ou un groupe de pages) sans ssue? Pour llustraton, voc notre graphe modfé : 5 1 6 7 8 9 2 3 4 13 12 11 10 L nterprétaton comme marche aléatore permet de résoudre l équaton (3) sans aucun calcul : la page P 13 absorbe toute la probablté car notre surfeur aléatore tombera tôt ou tard sur cette page, où l demeure pour le reste de sa ve. Ans la soluton est µ = (0,0,0,0,0,0,0,0,0,0,0,0,1). Notre modèle n est donc pas encore satsfasant. LE MODÈLE UTILISÉ PAR GOOGLE Pour échapper aux trous nors, Google utlse un modèle plus raffné : avec une probablté fxée c le surfeur abandonne sa page actuelle P et recommence sur une des n pages du web, chose de manère équprobable ; snon, avec probablté 1 c, le surfeur sut un des lens de la page P, chos de manère équprobable.

4 MICHAEL EISERMANN Cette astuce de «téléportaton» évte de se fare péger par une page sans ssue, et garantt d arrver n mporte où dans le graphe, ndépendamment des questons de connexté. Dans ce modèle la transton est donnée par (5) p := c n + 1 c p. l Le premer terme n c provent de la téléportaton, le second terme est la marche aléatore précédente. La mesure d équlbre vérfe donc (6) µ = c n + 1 c µ. l Le paramètre c est encore à calbrer. Pour c = 0 nous obtenons le modèle précédent. Pour 0 < c 1 la valeur 1/c est le nombre moyen de pages vstées, c est-à-dre le nombre de lens suvs plus un, avant de recommencer sur une page aléatore (processus de Bernoull). Par exemple, le chox c = 0.15 correspond à suvre envron 6 lens en moyenne, ce qu semble une descrpton réalste. Pour conclure l analyse de notre exemple, voc la marche aléatore partant de la page P 1 : P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 t=0 1.00.000.000.000.000.000.000.000.000.000.000.000 t=1.013.225.225.225.225.013.013.013.013.013.013.013 t=2.305.111.111.111.028.076.087.076.034.020.020.020 t=3.186.124.124.124.158.021.085.021.071.028.028.028 t=4.180.105.105.105.140.057.075.057.057.040.040.040 t=5.171.095.095.095.126.052.101.052.087.042.042.042... t=29.120.066.066.066.150.055.102.055.120.066.066.066 t=30.120.066.066.066.150.055.102.055.120.066.066.066 La mesure statonnare est vte attente, et la page P 5 arrve en tête avec µ 5 = 0.15 avant les pages P 1 et P 9 avec µ 1 = µ 9 = 0.12. LE THÉORÈME DU POINT FIXE Afn de développer un modèle prometteur nous avons utlsé des arguments heurstques et des llustratons expérmentales. Fxons mantenant ce modèle et posons-le sur un solde fondement théorque. Nos calculs aboutssent bel et ben dans notre exemple mnature, mas est-ce touours le cas? Le beau résultat suvant y répond en toute généralté : Théorème du pont fxe. Consdérons un graphe fn quelconque et fxons le paramètre c tel que 0 < c 1. Alors l équaton (6) admet une unque soluton vérfant µ 1 + + µ n = 1. Dans cette soluton µ 1,..., µ n sont tous postfs. Pour toute dstrbuton de probablté ntale le processus de dffuson (5) converge vers cette unque mesure statonnare µ. La convergence est au mons auss rapde que celle de la sute géométrque (1 c) n vers 0. L dée de la preuve est smple : on montre que la lo de transton (5) défnt une applcaton T : p p qu est contractante de rapport 1 c. Le résultat découle ans du théorème du pont fxe de Banach. CONCLUSION Pour être utle, un moteur de recherche dot non seulement énumérer les résultats d une requête mas les classer par ordre d mportance. Or, estmer la pertnence des pages web est un profond déf de modélsaton. En premère approxmaton Google analyse le graphe formé par les lens entre pages web. Interprétant un len comme «vote» de la page P en faveur de la page P, le modèle Page- Rank (6) défnt une mesure de «popularté». Le théorème du pont fxe assure que cette équaton admet une unque soluton, et ustfe l algorthme tératf (5) pour l approcher. Celu-c est facle à mplémenter et assez effcace pour les graphes de grandeur nature. Mun de ces outls mathématques et d une hable stratége d entreprse, Google gagne des mllards de dollars. Il fallat y penser! RÉFÉRENCES [1] S. Brn, L. Page : The Anatomy of a Large-Scale Hypertextual Web Search Engne. Stanford Unversty 1998, http://nfolab.stanford.edu/ pub/papers/google.pdf (20 pages). [2] M. Esermann : Comment fonctonne Google? Quadrature, no. 68, avrl 2008, verson étendue sur http://www-fourer.uf-grenoble.fr/ ~eserm/ensegnement#google (15 pages).

L ALGORITHME PAGERANK DE GOOGLE 5 DÉVELOPPEMENT MATHÉMATIQUE L obectf de cet appendce est de démontrer le théorème du pont fxe énoncé c-dessus. Les outls nécessares sont de nveau lcence : nous aurons beson d un peu de calcul matrcel (essentellement pour une notaton commode) et du théorème de pont fxe de Banach pour les fonctons contractantes f : R n R n. Je reprends c le développement de mon artcle [2]. REFORMULATION MATRICIELLE Remarquons d abord que l équaton (3) n est ren d autre qu un système d équatons lnéares. Plus explctement, pour tout couple d ndces, {1,...,n}, on défnt a par { 1l (7) a := s, 0 snon. On obtent ans une matrce A = (a ), et notre équaton d équlbre (3) s écrt comme (8) µ = Aµ ou encore (9) (A I)µ = 0, ce qu est un honnête système lnéare à n équatons et n nconnues µ 1,..., µ n. Dans notre exemple mnature dscuté cdessus, A est la matrce 12 12 suvante : A = 1/2 1/2 1/2 1/2 1/4 1/2 1/4 1/2 1/4 1/2 1/4 1 1/4 1/3 1/3 1/2 1/2 1/3 1/2 1/2 1/2 1/2 1/4 1/2 1/4 1/2 1/4 1/2. Comme énoncé, dans cet exemple l équaton µ = Aµ admet comme soluton le vecteur µ = (2,1,1,1,3,1,2,1,2,1,1,1). MATRICES STOCHASTIQUES Ben que nous n utlsons que des arguments d algèbre lnéare et un peu d analyse dans R n, nous ne nous prverons pas du vocabulare stochastque, car c est le pont de vue et le langage naturel de notre développement. Par défnton, notre matrce A = (a ) vérfe a 0 pour tout, et a = 1 pour tout, ce que l on appelle une matrce stochastque. (La somme de chaque colonne vaut 1, mas on ne peut en général ren dre sur la somme dans une lgne.) Nous supposons c que toute page emet des lens. Ce n est pas une restrcton séreuse : s amas une page n émet aucun len on peut la fare ponter vers elle-même. Nous nterprétons a comme la probablté d aller de la page P à la page P, en suvant un des l lens au hasard. La marche aléatore assocée consste à se balader sur le graphe suvant les probabltés a. MARCHE ALÉATOIRE Supposons qu un vecteur x R n vérfe x 0 pour tout et x = 1, ce que l on appelle un vecteur stochastque ou une mesure de probablté sur les pages P 1,...,P n : on nterprète x comme la probablté de se trouver sur la page P. Effectuons un pas dans la marche aléatore : avec probablté x on démarre sur la page P, pus on sut le len avec probablté a. Cec nous fat tomber sur la page P avec une probablté a x. Au total, la probablté d arrver sur la page P par n mporte quel len est (10) y = a x. Autrement dt, un pas dans la marche aléatore correspond à l applcaton lnéare (11) T : R n R n, x y = Ax.

6 MICHAEL EISERMANN La marche aléatore partant d une probablté ntale x 0 est l tératon de la transton x t+1 = T (x t ) pour t N. PRÉSERVATION DE LA MASSE S x est un vecteur stochastque, alors son mage y = Ax l est auss. Effectvement, y 0 car y = a x est une somme de termes postfs ou nuls. De plus on trouve y = a x = a x = ( a )x = x = 1. MESURE INVARIANTE Une mesure de probablté µ vérfant µ = T (µ) est appelée une mesure nvarante ou une mesure statonnare ou encore une mesure d équlbre. En termes d algèbre lnéare (8) c est un vecteur propre assocé à la valeur propre 1. En termes d analyse, c est un pont fxe de l applcaton T. C est ce derner pont de vue que nous allons exploter c. LE MODÈLE PAGERANK Dans le modèle PageRank la lo de transton (5) se formalse comme l applcaton affne (12) T : R n R n, x cε + (1 c)ax. Ic le vecteur stochastque ε = ( 1 n,..., 1 n ) correspond à l équprobablté, et A est la matrce stochastque défne par (7). Remarque. Restrente aux vecteurs stochastques, l applcaton T est donnée par (13) T (x) = cex + (1 c)ax où E est la matrce dont tous les coeffcents valent 1/n. Effectvement, sur le sous-espace affne des vecteurs x R n vérfant x = 1 nous avons Ex = ε. La restrcton de T coïncde donc avec l applcaton ndute par la matrce stochastque A c = ce + (1 c)a. LE THÉORÈME DU POINT FIXE Pour un vecteur x R n on défnt sa norme par x := x. C est une honnête norme, qu a toutes les bonnes proprétés usuelles. Ans x y mesure la dstance entre deux ponts x,y R n relatve à la norme. Défnton. Une foncton f : R n R n est dte contractante de rapport k < 1 s elle vérfe f (x) f (y) k x y pour tout x,y R n. Théorème du pont fxe (S. Banach 1922). S f : R n R n est une foncton contractante de rapport k < 1, alors : Il exste un et un seul pont µ R n vérfant f (µ) = µ. Pour tout vecteur ntal x 0 R n la sute tératve x m+1 = f (x m ) converge vers µ. On a x m µ k m x 0 µ, la convergence de x m vers µ est donc au mons auss rapde que celle de la sute géométrque k m vers 0. Pour le calcul concret on a l estmaton de l écart x m µ k 1 k xm x m 1. Dans la pratque, on gnore la lmte µ mas on peut faclement calculer la sute tératve x m. Pour contrôler la qualté de l approxmaton x m, on maore l écart x m µ entre x m et la lmte nconnue par la quantté 1 k k xm x m 1. APPLICATION AU MODÈLE PAGERANK Nous dsposons mantenant de tous les outls nécessares pour montrer que le modèle Page- Rank admet un unque soluton : Proposton. Sot A R n n une matrce stochastque quelconque et sot c une constante vérfant 0 < c 1. Alors l applcaton affne T : R n R n défne par (12) est contractante de rapport k = 1 c. Démonstraton. Regardons deux vecteurs x,y R n et maorons la norme de z := T x Ty en foncton de x y. On a z = ka(x y) donc z = k a (x y ) pour tout = 1,...,n.

L ALGORITHME PAGERANK DE GOOGLE 7 Cec nous permet de calculer la norme : T x Ty = z = z = k a (x y ) k = k a (x y ) a x y ( = k a ) x y = k x y = k x y. Cec prouve que T : R n R n est contractante de rapport k comme énoncé. Remarque. La proposton nclut le cas trval c = 1 : dans ce cas T (x) = ε est constante, donc x = ε est l unque pont fxe. Dans l autre extrême on pourrat consdérer c = 0, mas T = A n est pas forcément contractante. Par exemple pour un graphe à n sommets sans arêtes entre eux, nous obtenons la matrce dentté, A = I, qu admet tout vecteur x R n comme pont fxe. Un bon chox de c se stue donc quelque part entre 0 et 1. Corollare. Pour 0 < c 1 l applcaton T admet une unque mesure nvarante µ = T (µ) et pour tout vecteur ntal x 0 la sute tératve x m+1 = T (x m ) converge vers le pont fxe µ, au mons auss rapdement que (1 c) m 0. Démonstraton. L applcaton T étant contractante, elle admet un unque pont fxe µ R n. Il ne reste qu à vérfer que le pont fxe est un vecteur stochastque, c est-à-dre qu l satsfat µ 0 et µ = 1 : s l on démarre avec un vecteur stochastque x 0, alors tous les térés x m restent stochastques, donc leur lmte µ l est auss. (Exercce.) Remarque. Le résultat précédent se généralse au théorème de Perron Frobenus : s une matrce réelle A a tous ses coeffcents postfs, a > 0 pour, = 1,...,n, alors le rayon spectral de A est donné par une valeur propre λ R +, l espace propre assocé E λ est de dmenson 1, et l exste un vecteur propre v E λ dont tous les coeffcents sont postfs. Remarque. L algorthme tératf correspondant est souvent appelé la «méthode de la pussance». Il se généralse à une matrce A quelconque et permet d approcher numérquement un vecteur propre v assocé à la valeur propre λ de module λ maxmal, pourvu que cette valeur propre sot unque et smple. QUELQUES APPROFONDISSEMENTS DE L ALGORITHME À L IMPLÉMENTATION Rappelons que la matrce A représentant le graphe du web est très grande : en 2004 Google affrmat que «le classement est effectué grâce à la résoluton d une équaton de 500 mllons de varables et de plus de 3 mllards de termes.» Comment est-ce possble? La manère usuelle de stocker une matrce de talle n n est un grand tableau de n 2 coeffcents ndexés par (, ) {1,...,n} 2. Il est envsageable de stocker ans une matrce 1000 1000, c est-à-dre un mllon de coeffcents mas cec est hors de queston pour une matrce n n où n 10 6, vore n 10 8. Dans notre cas la plupart des coeffcents de la matrce valent zéro car une page n émet que quelques douzanes de lens typquement. Dans ce cas, l sufft de stocker les coeffcents non nuls, dont le nombre est d ordre n et non n 2. Une telle matrce est appelée creuse. Pour des applcatons réalstes, l est donc nécessare d mplémenter des structures de données et des méthodes adaptées aux matrces creuses. La méthode du pont fxe est fate sur mesure pour ce genre d applcaton, et la lo de transton (5) est facle à mplémenter, vor [2].

8 MICHAEL EISERMANN CHAÎNES DE MARKOV ET ERGODICITÉ Ce que nous venons d étuder sont des chaînes de Markov, à temps dscret et c à espace d états fn. En plus nos chaînes de Markov sont homogènes dans le sens que la lo de transton ne change pas au cours du temps. Le chox du paramètre c ]0,1], qu gère la téléportaton sur le graphe, garantt que notre chaîne de Markov est rréductble et apérodque. Dans cette stuaton on a touours convergence vers une unque mesure statonnare µ : les pussances A t, où t N, convergent vers la matrce dont chaque colonne est µ. En partculer, la mesure x t = A t x 0 converge vers µ ndépendamment de la mesure ntale x 0. Dans cette stuaton dte «ergodque» la lo des grands nombres est en vgueur : la moyenne «en temps» d une observable h le long d une traectore est égale à sa moyenne «en espace». Plus précsément, pour presque toute traectore (ω t ) t N on a l égalté 1 (14) lm T T T t=1 h(ω t ) = h( )µ. En partculer, µ est la fréquentaton moyenne de la page P. Cec ustfe notre nterprétaton que les pages avec une grande probablté µ sont les plus fréquentées, autrement dt les plus populares. QUELQUES POINTS DE RÉFLEXION LE MODÈLE EST-IL PLAUSIBLE? La structure caractérstque des documents hypertextes sont les ctatons mutuelles : l auteur d une page web aoute des lens vers les pages qu l consdère utles ou ntéressantes. L hypothèse à la base du modèle PageRank est que l on peut nterpréter un len comme un vote ou une recommandaton. Des mllons d auteurs de pages web lsent et ugent mutuellement leurs pages, et leurs ugements s exprment par leurs lens. Le modèle de la marche aléatore en profte en transformant l évaluaton mutuelle en une mesure globale de popularté. Cet argument de plausblté sera à débattre et à analyser plus en détal. L ultme argument en faveur du modèle PageRank, par contre, est son succès : le classement des résultats semble ben refléter les attentes des utlsateurs. DESCRIPTIF OU NORMATIF? Au début de son exstence, Google se voulat un outl descrptf : s une page est mportante, alors elle fgure en tête du classement. Son écrasant succès a fat de Google une référence normatve : s une page fgure en tête du classement, alors elle est mportante. Pour des stes web commercaux, l optmsaton de leur classement PageRank est ans devenue un eneu vtal. Afn d amélorer son classement, l sufft d attrer des lens, de préférence ceux éms des pages mportantes, et l vaut meux en émettre très peu. Ces stratéges et astuces sont devenues un domane très actf, dt «search engne optmzaton» (SEO). Cette évoluton rend l évaluaton des pages web encore plus dffcle : comme l approche et l mportance de Google sont mondalement connues, les lens s utlsent dfféremment de nos ours. Ans l omnprésence de Google change l utlsaton des lens par les auteurs des pages web... ce qu remet en queston l hypothèse à la base même du modèle PageRank. E-mal address: Mchael.Esermann@uf-grenoble.fr INSTITUT FOURIER, UNIVERSITÉ GRENOBLE I, FRANCE URL: www-fourer.uf-grenoble.fr/~eserm