Modélisatios Mathématiques Google PageRak et Chaîe de Markov PHAN Tra Thah Du École Natioale Supérieure de Cogitique Istitut Polytechique de Bordeaux 2 décembre 205
Table des matières Itroductio 2 2 PageRak 2 Exemple Gamig the system! 8
Itroductio Avec milliard de sites sur iteret, c est impossible à aalyser leurs coteus. Pourtat, l iteret est pas ue collectio de textes idépedats mais u immese hypertexte : les pages se citet mutuellemet. E cosidérat le web comme u graphe et e teat compte les lies etre les pages, o peut faire des choses itéressates. Les premières persoes qui ot abordé ce poit de vue étaiet Larry Page et Sergey Bri, fodateurs de Google, avec leur algorithme PageRak. Depuis sa coceptio e 998, Google domie le marché des moteurs de recherche sur iteret. as plus tard, leurs techiques ot déja beaucoup évolué, les résultats de recherche devieet de plus e plus pertiets, mais l idée pricipale est toujours basée sur l algorithme de classer PageRak. Das cet article, o va examier de plus près cet algorithme et le lie avec la chaîe de Markov. 2 PageRak PageRak utilise ue foctio qui assige ue valeur à chaque page sur iteret. Plus la valeur est élevée, plus la page est importate. PageRak est u algorithme qui est idépedat de la requête et du coteu. L idépedace de la requête veux dire que le classemet des sites est effectué hors-lige. E effet, chaque 0 jours, Google télécharge, idexe et classe tous les sites. Par coséquet, le classemet des résultats e déped pas de la requête. L idépedace du coteu est assez claire vu qu elle est abordée das la partie Itroductio : l algorithme PageRak utilise pas les coteus mais les lies pour classer les pages. Avat l époque de Google, il y avaiet déja plusieur moteurs de recherche. La majorité d etre eux classe les résultats e basat sur la fréquece dot le mot cherché est utilisé sur chaque site. Cela vite révélait des problèmes : si u site veut attirer des visiteurs, il faut juste spammer les mots-clés et le moteur de recherche va croire que c est u résultat vraimet pertiet. Les techiques pour berer les moteurs de recherche comme celle-ci sot appelées "term spam". Pour éviter ces fraudes, Larry Page et Sergey Bri ot crée PageRak avec 2 iovatios : PageRak simule d ue marche aléatoire d u visiteur, qui choisit par hasard u lie sur la page actuelle pour passer à la prochaie page. Ce processus se répète plusieurs fois et les auteurs raisoet que les pages sur lesquels l utilisateur passe plus de temps sot plus importat que ceux que l utilisateur visite raremet. 2
L importace d ue page déped de l importace des pages qui etraiet à celle-ci. Alors même si quelqu u a crée 000 pages fausses coteat des lies à la page pricipale, le rag PageRak de cette page pricipale est pas beaucoup amélioré parce que ces 000 pages fausses sot pas "importates". À ce momet là, Page et Bri ot pas ecore abordé le terme "Markov" das leur article, mais o peut remarquer facilemet que la modélisatio de la marche aléatoire est ue chaie de Markov. Ecore plus itéressat, la probabilité statioaire d ue chaie de Markov ous doe ue idée de la proportio de temps que X va passer à chaque état e log terme. Alors si la chaie coverge vers sa probabilité statioaire, sa probabilité limite est effectivemt le rag PageRak cherché. E d autre termes, l algorithme PageRak calcule le rag de chaque site e cherchat la probabilité statioaire uique de la chaie de Markov. Mais la vie est pas si simple. O e peut pas assurer que otre chaie de Markov coverge, ou qu il existe ue uique probabilité statioaire. C est souvet le cas pour u modèle de l iteret. Par exemple, c est très peu probable que les sites de Maths aiet des lies avec des sites de Sport (oui parce que les geeks e fot pas du sport...), et doc otre chaie de Markov a 2 classes fiaux, d où 2 probabilités statioaires. Afi de régler ce problème, Page et Bri essaiet de costruire ue chaie de Markov ergodique, ce qui va assurer l existece d ue uique probabilité statioaire, ce qui deviet dot le vecteur PageRak.
Exemple Pour illuster l algorithme de PageRak, o va predre u exemple cocret. Soit X la page que l utilisateur visite à l étape. X peut être modélisé par ue chaie de Markov car le choix de l utilisateur déped seulemet de la page actuelle. Supposat que otre "Iteret" est composé de pages, qui sot représetées comme les œuds. Les arêtes représetet les lies etre les pages. Etat sur ue page, u visiteur choisit aléatoiremeet u lie pour aller à ue autre page, alors les probabilités d aller d ue page aux autres sot égaux.
La matrice de trasitio est : 0 0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0 T = 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 2 0 0 0 0 0 O observe qu il existe 2 états absorbates : et. La chaie est pas ergodique, elle possède 2 probabilités statioaires et doc elle e coverge pas vers ue probabilité uique. Pour éviter cette situatio, Page et Bri ot fait ue hypothèse : Ue fois que le visiteur tombe sur ue page "fiale" (ie. pas de lie pour s e sortir), il va aller sur la barre d adresse et taper l adresse d u site aléatoire. E terme de matrice de trasitio, o va remplacer la coloe de l état absorbat par le vecteur :... () (2) La matrice de trasitio T deviet doc : 0 0 0 0 2 0 0 0 2 0 0 0 T = 0 0 0 0 0 0 0 2 0 0 0 2 0 0 0 0 () 5
Avec ce chagemet, T est irréductible et apériodique, doc ergodique. Pourtat, ce est pas toujours le cas, preat l exemple avec les sites de Maths et les sites de Sport, o peut obteir ue matrice de trasitio T : T = 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 () Elle a pas des états absorbates mais elle est pas irréductible et doc pas ergodique. Il faut que l o fasse ecore ue autre hypothèse : Supposat que le visiteur est sur ue page, o dit qu avec la probabilité p il va choisir u des lies das cette page et avec la probabilité p il va aller sur la barre d adresse et taper l adresse d u site aléatoire. La ouvelle matrice de trasitio est doc : G = pt + (p )K (5) avec K la matrice dot chaque coloe est le vecteur :... (6) La matrice G est appelée la matrice de Google. G est ergodique. Google utilise souvet p = 0.85. 6
E appliquat à otre exemple, o obtiet : G = 0.85 0 2 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 2 0 0 0 0 2 0 0 0 0 0 + 0.5 () G =.0229.629.0229.285.0229.0229.285.0229.0229.062.285.629.0229.285.829.0229.0229.285.0229.062.285.0229.0229.062.285.0229.0229.285.0229.629.0229.285.0229.062.285.0229.0229.062.285.629.0229.285.0229.0229.0229.285.0229.062.285 (8) E résoudrat Gπ = π, o trouve : π =.629.6856.926.0988.605.6856.092 (9) L ordre de classemet das otre exemple est doc :,2,6,5,,, Alors si u mot cherché apparait das les pages,2,5, l ordre des résultats est 2,5,.
Gamig the system! Commet peut o augmeter la valeur PageRak de otre site? Si la valeur PageRak (qui est aussi la probabilité statioaire) d ue page est p, le temps de retour de cette page est. Alors o peut effectivemet p augmeter la valeur PageRak e dimiuat le temps de retours, ce qui est possible si o crée des cycles très courts, ou idéalemet des loops. Cocrètemet, pour ue page x, o supprime tous les lies sur celleci (ie. pas de sortie), o crée ue autre page, y, avec seulemet 2 arêtes x y et y x. La valeur PageRak de la page x augmete car chaque fois que le visiteur tombe sur cette page, il peut pas s e sortir. Comme o a discuté das la partie (avec l exemple de Maths et Sport), l algorithme de PageRak peut éviter l effet de cette stratégie e augmetat la valeur de p, la probabilité que le visiteur va aller sur la barre d adresse et taper l adresse d u site aléatoire. Ue autre stratégie est de créer beaucoup de pages qui a seulemet arêtes vers la page x. Cette techique profite la probabilité p de recommecer la marche. Si o a ue très grade ombre de pages fausses, c est très probable que après recommecer, o va tomber sur la page x, et doc la valeur PageRak augmete. Pour éviter cette situatio, il faut dimiuer la valeur de p. Grâce à ces 2 situatios o voit bie que le choix de p est extrêmemet importat pour éviter les spams. Si p est trop élevée, les spammers doivet juste créer des millios de pages fausses etraiat à leurs pages pricipales. E revache, avec ue très petite p, ils peuvet établir des loops avec leur pages. Ce que l o a discuté est seulemet les pricipes de bases de la moteur de recherche de Google. Les techiques ot déja beaucoup très évolué pour doer les résultats plus pertiets. La questio de computatio est très itéressate aussi. Etat doé que la vraie matrice de Google est de taille 8 milliards x 8 milliars, la méthode d élimiatio de Gauss est pas pratique. O utilise des algorithmes plus puissats pour trouver les vecteurs propres, otammet la méthode de la puissace. 8
Référeces [] Kumar, Ravi, Alex Goh Kwag Leg, ad Ashutosh Kumar Sigh. Applicatio of Markov Chai i the PageRak Algorithm. Trasitio (92) :. [2] Kurt Brya, Taya Leise. The $25 000 000 000 eigevector, The liear algebra behid Google. [] Lagville, Amy N., ad Carl D. Meyer. Deeper iside pagerak. Iteret Mathematics. (200) : 5-80. [] Jia Li. Markov Chai Iterpretatio of Google Page Rak. 2005 [5] Wexig Ye. O PageRak Algorithm ad Markov Chai Reductio. 9